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8 年 实战 经 验 
市 你 搞定 尺 语言 数据 分 析 
有 理论 ， 有 应 用 ， 有 技巧 


示 亿 :从 数据 读 取 、 网 络 爬 虫 ， 到 数据 分 析 方 法 ， 应 有 尽 有 
全 面 : 介绍 了 最 单 用 的 12 种 数据 分 析 方 法 

SEA: 针对 每 种 万 法 ， 都 给 出 了 实现 代码 ， 拿 来 残 用 

EIE. 提供 了 59 张 数据 分 析 图 ， 方 便 读 者 学 习 
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内 容 人 简介 

本 书 首先 介绍 数据 分 析 的 方法 论 ， 然 后 介绍 数据 分 析 的 相关 模型 方法 ， 并 进一步 通过 数据 分 析 案 例 ， 
讲解 数据 分 析 的 思维 、 方 法 及 模型 实现 过 程 。 本 书 重点 介绍 R 语言 在 数据 分 析 方 面 的 应 用 ， 让 读者 能 够 快 
速 地 使 用 R 语言 进行 数据 分 析 、 构 建 模型 。 

本 书 分 为 17 草 ， 内 容 包括 : 使 用 RR 语言 获取 数据 、 数 据 分 析 中 的 数据 处 理 与 数据 探索 、 生 存 分 析 、 
主 成 分 分 机 、 多 维 缩放 、 线 性 回归 模型 、 逻 辑 回归 模型 、 聚 关 横 型 、 关 联 规 则 、 随 机 森林 、 文 持 回 量 机 、 
神经 网 络 、 文 本 挖掘 、 社 交 网 络 分 析 ， 以 及 H20 机 器 学 习 和 RR 语言 候 虫 这 两 个 关于 R 语言 数据 分 析 的 两 
个 延伸 内 容 。 

本 书 内 容 通 俗 易 履 ， 案 例 丰 富 ， 实 用 性 强 ， 特 别 适 合 R 语言 的 入 门 读者 和 进 阶 读者 阅读 ， 也 适合 数据 
分 析 人 员 、 数 据 挖 据 人 员 等 其 他 数据 科学 从 业者 。 男 外 ， 本 书 也 适合 统计 和 学、 计算机 、 机 咒 学 习 、 数 学 等 
相关 专业 的 本 科 生 、 研 究 生 使 用 。 
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R 语言 由 统计 学 家 设计 ， 专 门 用 于 统计 计算 。 随 着 技术 的 进步 ， 数 据 公 司 或 研究 机 构 
的 数据 收集 工作 变 得 越 来 越 复 杂 ， 许 多 人 已 经 采用 R 语言 作为 分 析 数 据 的 首选 语言 。R 语 
言 非 第 适合 机 器 学 习 、 数 据 可 视 化 、 数 据 分 析 及 科学 计算 。R 语言 因 其 特定 主题 的 软件 包 
及 其 通信 基础 设施 的 深入 而 非常 适合 业务 。 及 语言 包含 主题 广泛 的 软件 包 ， 如 计量 经 济 学 、 
金融 学 和 时 间 序 列 ; 拥有 一 流 的 可 视 化 、 报 告 和 交互 性 工具 ， 这 些 工 具 在 科学 计算 领域 同 
样 重要 。 因 此 ，R 语言 非常 适合 科学 家 、 工 程 师 和 商业 专业 人 士 使 用 。 

随 着 数据 分 析 在 帮助 企业 了 解 客户 、 提 升 运 营 效 率 等 方面 越 来 越 重要 ，R 语言 也 变 得 

正如 RR 语言 分 析 师 们 在 一 篇 文章 中 讲 到 ，R 语言 是 Microsoft 数据 科学 家 的 首选 工 
具 ， 他 们 将 机 器 学 习 应 用 于 Bing, Azure, Office 及 销售 、 营 销 和 财务 部 门 的 数据 。 除 
Google. Facebook 和 Microsoft 等 科技 巨头 外 ， 及 语言 还 广泛 应 用 于 包括 美国 银行 、 福 特 、 
TechCrunch、Uber 和 Trulia 在 内 的 其 他 公司 。 

R 语言 不 仅仅 是 工业 工具 ， 它 在 学 术科 学 家 和 研究 人 员 中 也 非常 受 欢迎 。R 语言 在 学 术 
界 的 受 欢迎 程度 非常 高 ， 因 为 它 创造 了 一 个 为 行业 提供 支持 的 人 才 库 。 换 句 话 说 ， 如 果 最 优 
秀和 最 聪明 的 人 在 大 学 接受 过 R 语言 培训 ， 那 么 这 将 增加 RR 语言 在 工业 中 的 重要 性 。 离 开学 
术 界 进行 商业 活动 的 学 者 、 博 士 和 研究 人 员 将 吸引 更 多 的 人 使 用 及 语言 进行 数据 科学 研 客 。 


笔者 的 使 用 体会 


笔者 以 及 语言 为 工具 进行 数据 分 析 、 统 计 建 模 、 机 器 学 习 等 数据 科学 的 工作 已 经 很 多 
ET, 对 及 语言 的 原理 、 应 用 等 各 个 方面 有 着 比较 全 面 的 认识 。 有 语言 有 着 非常 突出 的 优点 。 
第 一 ，R 语言 是 开源 的 ， 可 以 完成 SAS 所 能 完成 的 几乎 所 有 的 工作 ，SAS 非常 昂贵 ， 
但 是 及 语言 完全 免费 。 个 人 或 者 公司 可 以 自由 地 安装 、 使 用 、 更 新 、 修 改 及 语言 程序 ， 或 
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者 转 售 及 语言 程序 ， 这 是 一 个 巨大 的 优势 。 

第 二 ，R 语言 是 跨 平 台 的 ， 可 以 在 Windows, Mac OS 和 Linux 上 运行 ， 可 以 从 各 种 数 
据 源 导入 数据 。 

第 三 ，R 语言 有 着 非常 强大 的 社区 ， 其 提供 了 非常 丰富 的 数据 科学 、 统 计 相 关 的 资源 ， 
可 以 使 得 每 一 个 及 语言 用 户 受 益 。 正 是 这 些 资源 , 可 以 让 一 个 非常 复杂 的 问题 得 到 快速 解决 。 

第 四 ,及 语言 提供 了 强大 的 数据 可 视 化 功能 , 可 以 生成 高 质量 的 图 形 , 如 条 形 图 、 直 方 图 、 
散 点 图 、 动 态 图 形 、 数 学 符号 ， 甚 至 是 自己 设计 的 全 新 图 形 ， 通 第 只 需 很 少 的 代码 。 

第 五 ，R 语言 的 文档 资源 相当 丰富 ， 并 且 质 量 非常 高 ， 这 对 于 学 习 及 语言 及 在 工作 中 
使 用 及 语言 有 着 非常 大 的 帮助 。 因 为 及 语言 涉及 很 多 领域 的 应 用 ， 从 生物 、 金 融 到 贝 叶 斯 
统计 、 网 络 分 析 ， 可 以 沿 着 及 语言 资源 的 脉络 了 解 其 他 领域 的 知识 。 

第 六 ， 及 语言 同样 可 以 用 来 处 理 PB 级 别 的 业务 数据 。 使 用 及 语言 处 理 大 量 数据 时 ， 
系统 可 能 会 耗 尺 内 存 ， 但 有 儿 种 商业 版 本 的 及 语言 可 以 轻松 处 理 大 量 业 务 数据 ， 而 不 会 有 
任何 麻烦 。 

使 用 及 语言 存在 一 些 挑 战 。 及 语言 的 学 习 曲 线 比 较 陡 峭 ， 虽 然 及 语言 的 语法 比较 简单 ， 
入 门 比 较 快 ; 及 语言 的 强大 在 于 其 丰富 的 资源 ， 掌 握 这 些 资源 并 加 以 利用 并 不 是 一 件 容 易 
的 事情 ; 另外 ， 解 决 数据 分 析 、 数 据 科 学 方面 的 问题 ， 仅 仅 了 解 及 语言 是 远 远 不 够 的 ， 统 
计 理 论 、 机 器 学 习 方面 的 知识 同样 是 解决 问题 的 门槛 ; 并 且 ， 更 重要 的 是 掌握 数据 科学 、 
数据 分 析 问 题 的 思维 方式 及 流程 ， 而 这 些 也 不 是 短 时 间 内 就 能 掌握 的 。 

但 是 ， 只 要 坚持 学 习 下 来 ， 就 会 发 现 ，R 语言 提供 的 大 量 地 应 用 于 数据 科学 、 数 据 分 
析 方 面 的 资源 都 能 够 为 我 们 所 用 ， 而 我 们 也 能 游 丸 有 余地 解决 数据 分 析 相 关 的 问题 。 


本 书 的 特色 


W 本 书 不 需要 太 多 的 预备 知识 ， 只 需要 很 少 的 数学 统计 知识 。 

W 本 书 含有 大 量 的 图 表 ， 通 过 示例 讲解 数据 分 析 ， 不 拘泥 于 理论 ， 能 够 帮助 读者 快速 

B 本 书 案例 丰富 ， 很 好 地 平衡 了 理论 与 应 用 ， 有 着 非常 高 的 理论 与 实用 价值 ， 是 学 习 
R 语言 与 数据 分 析 不 可 多 得 的 书籍 。 

W 本 书 将 重点 放 在 如 何 用 实现 数据 分 析 方 法 及 数据 分 析 方 法 的 应 用 方面 ， 这 也 是 本 书 
与 许多 其 他 同类 图 书 的 不 同 之 处 。 


本 书 的 主要 内 容 


R 语 言 数据 的 恋 取 


R 语 言 数据 处 理 与 数据 探索 


数据 分 析 的 方法 
R 语 言 数据 | | 数据 分 析 的 册 
分 析 基本 流程 站 
数据 分 析 的 场景 案例 / 
数据 分 析 的 延伸 
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数据 分 析 的 从 业 人 员 ; 


生存 分 析 
主 成 分 分 析 
多 维 缩放 
线性 回归 模型 


| 逻辑 回归 模型 


聚 类 模型 


| 关联 规则 
v 随机 森林 
、 文 持 问 量 机 
\ 神经 网 络 


文本 挖掘 
社交 网 络 分 析 
H20J/L A ^f 2] 


统计 、 数 学 、 经 济 学 、 计 算 机 、 财 经 等 学 科 的 本 科 生 、 研 究 生 ; 


互联 网 从 业 人 员 ， 如 产品 经 理 ; 
R 语言 、 数 据 分 析 新 手 ; 

有 一 定 及 语言 经 验 的 人 ; 
转行 进入 数据 分 析 行业 的 人 
其 他 任何 感 兴趣 的 人 群 
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第 1 章 数据 分 析 项 目的 流程 

本 章 主要 介绍 进行 数据 分 析 项 目 时 ， 项 目的 人 员 分 配 、 如 何 定 义 问 题 、 
数据 分 析 的 流程 等 。 

通过 对 本 章 的 学 习 ， 掌 握 数 据 分 析 项 目的 整个 流程 ， 了 解数 据 分 析 项 目 
成 员 的 各 种 角色 和 职责 、 数 据 分 析 项 目的 各 个 阶段 、 数 据 分 析 项 目的 目标 是 
义 及 数据 分 析 项 目的 预期 设 定 。 

一 个 数据 分 析 项 目 有 一 个 负责 人 ， 对 项 目 全 程 负责 ， 有 时 候 这 个 负责 人 
被 称 为 数据 科学 家 。 一 个 数据 分 析 项 目的 成 功 ， 靠 的 是 有 清晰 、 吓 量 的 目标 ， 
有 良好 的 方法 论 ， 有 跨越 学 科 的 交流 合作 ， 以 及 一 套 可 以 重复 的 工作 流程 。 


1.1 数据 分 析 项 目 中 的 角色 


1. 出 资方 

一 个 数据 分 析 项 目 最 重要 的 角色 是 出 资方 。 出 资方 是 数据 分 析 项 目 负责 
人 要 负责 的 对 象 ， 也 是 想得到 数据 分 析 络 条 的 人 。 通 吊 而 言 ， 数 据 分 析 项 目 
的 成 功 与 失败 是 由 出 资方 来 认定 的 。 如 果 出 资方 对 数据 分 析 项 目的 结果 满意 ， 
则 可 以 认定 项 目 是 成 功 的 。 因 此 ， 让 出 资方 满意 是 数据 分 析 项 目的 一 个 重要 
目标 。 

要 让 出 资方 满意 , 必须 要 做 的 一 件 事 是 保持 出 资方 对 项 目的 了 解 和 介入 ， 
这 一 点 至 关 重 要 。 根 据 出 资方 对 数据 分 析 项 目的 理解 程度 ， 为 他 们 介绍 项 目 
的 计划 、 目 前 的 进展 、 阶 段 性 的 成 功 及 目前 过 到 的 困难 ， 这 样 做 的 一 大 好 处 
是 容易 获得 出 资方 的 文 持 。 如 果 只 是 目 己 浆 头 做 ， 很 容易 造成 出 资方 的 误解 ， 
甚至 寻 致 项 目 和 失败 。 

为 了 确 你 出 资方 对 项 目 满意 ， 必 须 和 出 资方 讨论 数据 分 析 项 目的 目标 ， 
直至 目标 清晰 。 需 要 注意 的 是 ， 一 定 要 用 量化 的 语言 来 描述 出 资方 的 目标 。 
这 样 做 的 好 处 十， 精确 的 目标 有 助 于 检查 该 目标 是 含 能够 满 下 目前 的 商业 意 
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图 ， 是 否 有 足够 的 资源 ， 是 否 有 高 质量 的 数据 与 工具 去 完成 这 个 目标 ， 以 及 是 否 有 能 力 衡 
量 目标 是 否 完 成 。 

2. 数据 科学 家 

数据 科学 家 是 数据 分 析 项 目 中 很 重要 的 角色 ， 其 负责 数据 分 析 项 目的 各 个 流程 ， 包 括 
设 定 项 目 战略 ， 保 证 出 资方 了 解 项 目 进展 。 数 据 科 学 家 需要 设计 数据 分 析 项 目的 流程 ， 挑 
选 数 据 分 析 项 目的 数据 源 及 使 用 工具 。 数 据 科 学 家 需要 挑选 并 尝试 使 用 各 种 搁 术 ， 所 以 其 
必须 要 精通 统计 学 和 机 器 学 习 。 另 外 ， 数 据 科 学 家 也 负责 对 项 目 进行 监控 。 

在 技术 层面 ， 数 据 科 学 家 要 检查 数据 ， 进 行 统计 检验 ， 构 建 统计 模型 、 机 器 学 习 模 型 ， 
评价 模型 结果 。 

3. 数据 仓库 负责 人 

数据 仓库 负责 人 负责 所 有 的 数据 及 数据 的 存储 。 这 个 角色 往往 由 数据 分 析 项 目 团队 之 
外 的 人 来 担任 ， 如 公司 的 数据 库 管理 员 或 者 架构 师 。 该 角色 负责 解决 项 目 中 与 数据 有 关 的 
问题 。 

4. 业务 负责 人 

业务 负责 人 在 获取 数据 和 提交 最 终结 果 的 过 程 中 是 非常 关键 的 项 目 和 角色， 通常 负责 
据 科 学 团队 之 外 的 操作 。 例 如 ， 当 应 用 数据 分 析 结 果 、 构 建 好 模型 分 析 这 个 结果 或 者 模型 
会 对 业务 有 什么 影响 时 ， 业 务 负责 人 在 决定 如 何 进 行 应 用 数据 分 析 时 有 比较 大 的 发 言 权 。 
这 个 人 会 给 出 响应 时 间 、 编 程 语言 和 数据 大 小 等 方面 的 约束 。 


1.2 ”数据 分 析 项 目的 阶段 


在 一 个 比较 理想 的 数据 分 析 项 目 中 ， 数 据 科 学 家 需要 与 所 有 的 其 他 利益 方 进行 不 断 的 
交流 反馈 。 也 就 是 说 ， 数 据 分 析 项 目 并 不 是 一 个 线性 的 过 程 ， 而 是 一 个 不 断 往复 的 过 程 ， 
如 图 1.1 所 示 。 


定义 问题 上 >| 收集 数据 Ie] ORG E 立 模型 评价 模型 


特征 选择 


图 1.1 数据 分 析 项 目 流程 图 


尽管 一 个 数据 分 析 项 目的 生命 周期 被 划分 成 了 不 同 的 阶段 ， 但 是 现实 项 目 中 各 个 阶段 
之 间 的 边界 并 不 古 固定 的 ， 一 个 阶段 的 活动 经 常 与 为 一 个 阶段 的 活动 重 肢 在 一 起 。 

下 面 以 一 个 银行 问题 为 例子 一 一 银行 目前 有 很 多 的 不 良 贫 球 , 想 要 降低 贷 蒜 的 违约 率 。 
基于 这 个 目的 ， 自 先 需 要 制定 一 个 目标 。 


1.2.1 制定 目标 


制定 一 个 可 以 衡量 、 可 以 量化 的 目标 是 数据 分 析 项 目的 第 一 个 任务 ， 也 是 非常 重要 的 
一 个 任务 。 所 以 ， 在 这 个 阶段 ， 需 要 尽 可 能 多 地 了 解 项 目的 育 景 与 相关 信息 ， 例 如 : 

@ 为 什么 需要 对 这 个 项 目 做 研究 ? 出 资方 缺少 了 什么 及 需要 什么 ? 

e 出 资方 有 何 办 法 来 解决 问题 ? 是 否 做 得 足够 好 ? 

e 这 个 数据 分 析 项 目 需要 什么 资源 ? 有 多 少数 据 可 用 ? 是 否 需要 领域 专家 的 合作 ? 

e 这 个 数据 分 析 项 目 有 哪些 约束 条 件 ? 

回 到 上 文 提 到 的 银行 贷款 违约 的 例子 ， 这 个 例子 的 商业 目标 是 减少 银行 的 不 恨 贷款 ， 
减少 贫 于 损失。 这 束 需 要 一 个 方法 来 判断 贷款 人 的 违约 概率 ， 对 贫 球 人 进行 打分 。 一 旦 和 
项 目的 出 资方 及 其 他 相关 的 利 奋 方 对 关于 这 个 项 目的 各 种 问题 有 了 一 个 基本 舍 采 ， 束 家 要 
和 他 们 一 起 制定 数据 分 析 项 目的 精确 目标 。 该 目标 应 该 是 具体 的 、 可 以 衡量 的 。 

例如 ， 将 不 民 贫 球 率 降低 1 个 百分点 。 通 过 项 目 具 体 目 标 得 出 该 项 目的 具体 约束 条 件 
和 接受 条 件 。 目 标 越 不 具体 ， 数 据 分 析 项 目 束 越 没 有 边界 。 硅 我 们 不 知道 想 要 达到 的 目标 
是 什么 ， 束 不 知 志 什么 时 候 可 以 结束 ， 什 么 时 候 集 止 笃 试 ， 最 终 项 目 会 由 于 时 间 过 期 或 者 
资源 耗 尽 而 不 得 不 结束 ， 这 个 时 候 每 个 人 痢 不 会 对 结果 满意 。 

这 并 不 是 说 不 需要 对 数据 分 析 项 目 进行 一 些 探索 ， 而 是 说 要 定义 好 目标 ， 然 后 做 和 目 
标 相 关 的 事情 ， 目 标 告 诉 了 我 们 探索 的 方 同 。 一 旦 定义 好 了 目标 ， 束 需要 收集 数据 ， 尽 可 
能 地 去 实现 这 些 目 标 。 


1.2.2 ”收集 数据 


在 定义 好 数据 分 析 项 目的 目标 之 后 ， 需 要 识别 出 需要 的 数据 。 这 个 阶段 是 处 理 过 程 中 
了 最 耗 时 的 过 程 ， 也 是 非 单 重要 的 过 程 ， 需 要 探讨 的 问题 如 下 : 
@ 什么 数据 可 以 用 ? 
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e 这 些 数据 是 否 有 用 ? 

e 数据 是 否 足 够 多 ? 

e 数据 的 质量 是 否 足 够 好 ? 

当 我 们 搜集 到 了 上 所 有 我 们 能 够 搜集 到 的 数据 ， 需 要 将 数据 有 组 织 地 储存 起 来 ， 接 下 来 
需要 对 数据 进行 一 些 处 理 和 分 析 。 


1.2.3 ”数据 公理 和 分 析 


在 这 个 阶段 , 我 们 需要 对 数据 进行 初始 的 探索 和 可 视 化 ， 并 且 还 需要 对 数据 进行 清洗 ， 
修复 数据 的 错误 ， 对 数据 进行 必要 的 转换 。 在 探索 和 清洗 数据 的 过 程 中 ， 有 些 数据 可 能 
法 使 用 ， 有 些 数 据 可 能 不 太 适 合 ， 这 个 时 候 有 些 问 题 是 需要 我 们 去 解决 的 。 有 时 我 们 会 及 
现 数据 的 结论 和 我 们 的 常识 判断 是 不 一 样 的 ， 这 个 时 候 我 们 就 会 发 现 一 些 常识 不 一 定 是 
对 的 。 

在 这 个 过 程 中 要 观察 数据 的 分 布 、 数 据 是 否 有 偏 、 数 据 是 否 来 目 单 一 的 分 布 ， 哪 些 特 
征 有 比较 好 的 预测 效果 ， 这 些 问 题 都 是 这 个 过 程 中 要 探讨 的 。 不 断 地 发 现 问题 及 一 些 有 意 
思 的 点 ， 有 助 于 我 们 和 其 他 的 项 目 利益 方 去 精 化 项 目 目标 。 通 章 而 言 ， 数 据 探 索 并 不 仅仅 
发 生 在 这 个 过 程 ， 在 这 个 阶段 之 前 及 这 个 阶段 之 后 ， 也 常常 会 及 复 进 行 。 

在 这 个 过 程 中 ， 我 们 会 使 用 各 种 统计 图 形 来 展示 数据 ， 图 形 可 以 很 好 地 帮助 我 们 了 解 
数据 ， 儿 助 我 们 在 数据 分 析 中 产生 凋 见 。 在 这 里 先 使 用 一 组 数据 集 来 做 演示 ， 这 个 数据 集 
是 德国 的 一 家 银行 的 信用 评分 数据 集 ， 这 个 数据 集 被 封装 在 一 个 R 包 中 一 一 scorecard 包 ， 
加 载 这 个 包 之 后 即 可 使 用 这 个 数据 集 。 在 下 面 的 代码 中 ，library( ) 函数 用 于 加 载 一 个 包 ， 
data( ) 国 数 用 于 获取 包 中 的 数据 集 ，dim() 图 数 用 于 奉 看 数据 集 的 维度 。 


library (scorecard) 
data ("germancredit") 
dim(germancredit) 

## [1] 1000 Al 


这 个 数据 集 一 共有 1000 条 数据 、21 个 特征 ， 每 一 条 数据 代表 一 个 用 户 ， 而 数据 集 的 
最 后 一 个 特征 creditability 记录 了 这 个 用 户 的 逾期 情况 ，good 代表 好 客 尸 ，bad 代表 坏 客 成 。 
对 于 这 份 数据 集 ， 我 们 首先 要 做 的 是 尽 可 能 地 去 了 解 其 信息 。 

例如 ， 我 们 想 要 了 解数 据 中 人 群 的 分 布 ， 那 么 我 们 可 以 计算 一 些 天 于 年 龄 的 统计 量 ， 


如 均值 、 方 差 、 中 位 数 等 ， 在 R 语言 中 使 用 summary( ) 函数 可 以 很 方便 地 获取 这 些 信 息 


summary(germancredit[,13]) 
## Min. lst Qu. Median Mean 3rd Qu. Max. 
## 19.00 27.00 33. DT) 35.55 42.00 75.00 


从 这 里 可 以 了 解 到 ， 最 小 的 客户 只 有 19 岁 ， 而 最 大 的 客 己 有 75 岁 ， 这 个 客户 群体 的 
平均 年 龄 为 33 岁 。 男 外 ， 我 们 可 以 绘制 一 个 直方 图 ， 以 更 加 直观 地 观察 数据 的 分 布 。 关 
于 年 龄 的 二 方 图 分 布 如 图 1.2 所 示 。 绘 图 使 用 了 ggplot2 包 ，ggplot2 包 可 以 快速 地 绘制 美观 
的 统计 图 形 。 


library iggplotz) 

ggElot (data = gqermancreditraes(x = age.1n. Vears))+geom histogram(aes (y 
nLew cg ornvatn -emer Eeka ne ean 
density(alpha = 0.2) 
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图 1.2 ”关于 年 龄 的 直方 图 分 布 
从 关于 年 龄 的 耳 方 图 可 以 看 出 ， 年 龄 的 分 布 是 左 仿 的 分 布 ， 年 座 集 中 在 20 一 40 岁 这 
个 年 龄 段 。 这 样 我 们 就 可 以 很 消 楚 地 了 解 这 个 数据 集中 关于 年 龄 的 信息 。 
进一步 ， 我 们 可 能 想 知 道 不 同年 龄 的 客户 中 的 好 坏 客户 是 否 不 一 样 ， 换 句 话说 ， 好 坏 
客户 的 年 龄 分 布 是 不 是 不 一 样 。 基 于 这 个 想法 ， 我 们 可 以 针对 好 坏 客户 分 别 绘制 直方 图 ， 
观察 二 者 的 分 布 ， 如 图 1.3 所 示 。 


深入 浅 出 民 语 言 数 据 分 析 


library (ggplot2) 

ggplot (data=germancredit,aes (x=age.in.years,color=creditability))+ge 
om histogram(aes(y = ..density..),binwidth = 0.5) tgeom density (alpha = 
0.2) 
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图 1.3 ”好 坏 客户 的 年 龄 直方 图 分 布 

从 图 1.3 中 可 以 看 出 ， 坏 客户 的 分 布 比 好 客户 的 分 布 更 靠 左 ， 这 就 意味 着 年 轻 人 更 有 
可 能 是 坏 客 户 。 这 个 结论 也 符合 第 理 ， 年 轻 人 的 经 济 状 况 不 如 中 年 人 ， 而 且 大 多 数 疫 有 形 
成 比较 好 的 经 济 理念 ， 容 易 超前 消费 ， 同 时 容易 发 生 信贷 逾期 的 情况 。 

按 同 样 的 方法 ， 不 断 地 探索 数据 ， 发 现 数据 之 间 的 规律 ， 找 到 那些 关键 的 信息 ， 然 后 
进入 构建 模型 的 步骤 。 


第 了 e 数据 分 析 项 目的 流程 


1.2.4 构建 模型 


在 对 数据 进行 了 充分 的 探索 之 后 ， 可 以 笃 试 去 构建 模型 ， 用 统计 模型 和 机 絮 学 习 模 型 
去 解决 项 目 面临 的 问题 。 模 型 可 以 表达 数据 中 的 复杂 关系 ， 带 助 我 们 去 理解 和 领情 数据 中 
的 信息 。 有 些 统计 模型 会 有 关于 数据 的 各 种 假设 ， 因 此 ， 在 构建 模型 之 前 的 数据 探索 环节 ， 
我 们 需要 去 验证 各 种 假设 和 和 条件， 当然 ， 也 有 一 些 模型 对 于 数据 没有 任何 假设 。 总 而 言 之 ， 
数据 探索 和 构建 模型 之 间 的 关系 并 没有 严格 的 界限 ， 二 者 之 间 往 往 会 有 重 登 和 上 反复。 

一 般 而 言 ， 机 器 学 习 的 任务 有 两 大 类 ， 即 有 监督 的 问题 和 无 监督 的 问题 。 其 中 ， 有 监 
督 的 问题 往往 包括 以 下 三 方面 。 

e 分 类 问题 : 将 不 同 的 样本 归属 于 不 同 的 类 别 。 

e 回归 问题 : 模型 会 去 预测 一 个 数值 ， 如 房价 。 

e 排名 问题 : 类 似 于 回归 问题 ， 但 是 与 回归 问题 的 不 同 之 处 在 于 排名 问题 的 目的 是 对 

数据 进行 排序 。 

无 监督 的 问题 包括 以 下 两 方面 。 

e XX. 用 于 识别 数据 中 相似 的 组 。 

e 关联 规则 : 用 于 找 出 数据 中 潜在 的 关系 。 

一 旦 我 们 识别 出 了 项 目 面临 的 问题 属于 哪 一 类 , 就 可 以 应 用 多 种 方法 来 解决 这 个 问题 。 
例如 ， 上 了 文 所 使 用 的 数据 集 ， 其 本 质 上 是 要 预测 用 户 的 违约 情况 一 一 违约 或 者 不 违约 ， 
此 这 个 问题 属于 二 分 类 的 问题 。 对 于 二 分 类 的 问题 ， 可 用 的 方法 有 很 多 ， 最 音 用 的 方法 是 
逻辑 回归 模型 。 可 以 使 用 的 机 器 学 习 模 型 还 包括 决策 树 、 随 机 和 森林、 神经 网 络 模 型 等 。 这 
里 使 用 iris 数据 集 构 建 一 个 随机 和 森林 模型 ， 这 个 数据 集 是 R 语言 上 日 市 的 数据 集 ， 因 此 可 以 
直接 使 用 。 这 里 使 用 randomForest 包 中 的 randomForest( ) 函数 构建 随机 森林 模型 。 使 用 
randomForest( ) 构建 随机 和 森林 模型 所 使 用 的 基础 参数 包括 两 个 : 第 一 个 参数 是 模型 的 公式 ， 

"Species 一 .,” 表 示 以 Species 为 因 变 量 ， 数 据 集 中 所 有 的 其 他 变量 为 目 变 量 ; 第 二 个 参数 
是 所 用 到 的 数据 集 。 其 他 参数 默认 ， 运 行 即 可 构建 出 随机 森林 模型 。 


library (randomForest) 

## randomForest 4.6-14 

## Type rfNews() to see new features/changes/bug fixes. 

uu 

## Attaching package: 'randomForest' 

## The following object is masked from 'package:ggplot2': 
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## 

Ld margin 

ran <- randomForest(Species-.,data = iris) 

ran 

Uk 

## Call: 

##  randomForest(formula = Species ~ ., data = iris) 
Td Type of random forest: classification 
## Number of trees: 500 

## No. of variables tried at each split: 2 

## 

## OOB estimate of error rate: 4$ 

$4 Confusion matrix: 

## setosa versicolor virginica class.error 
## setosa 50 0 0 0.00 

# versicolor 0 47] 3 0.06 

## virginica 0 3 47 0.06 


JXUEE LIA ERE Y — AEN RAR. MARARA LAS, TERUEL EDS LEX MIT AT 
类 模型 ， 一 共生 成 了 500 棵 决策 树 ，OOB estimate of error rate 〈 包 外 估计 误差 ) 是 4%， 误 
差 比 较 小 。 结 果 还 给 出 了 训练 数据 的 混 消 官 阵 (confusion matrix) ， 从 泥 清 矩阵 中 可 以 发 现 ， 
3 个 virginica 被 模型 错 判 为 versicolor，3 个 versicolor 被 模型 错 判 为 virgincicn。 构 建 好 模型 
之 后 ， 奈 需要 对 模型 进行 评估 ， 以 判断 模型 的 优 务 。 


1.2.5 ”评估 模型 


当 构 建 好 模型 之 后 ， 我 们 需要 知道 这 个 模型 的 效果 如 何 ， 以 及 我 们 建立 的 模型 是 否 能 
够 达到 我 们 的 目标 。 

评估 模型 需要 评估 以 下 几 个 方面 。 

e 模型 的 预测 效果 。 如 果 一 个 模型 的 预测 效果 与 抛 硬币 相差 无 几 ， 这 意味 着 我 们 的 模 
型 可 有 可 无 。 我 们 可 以 设置 一 个 基本 模型 ， 这 个 模型 是 最 简单 、 最 基本 的 ， 我 们 建 
立 好 的 模型 必须 比 这 个 基本 模型 要 好 。 例如 ,我 们 可 以 认为 抛 硬币 是 一 个 基本 模型 ， 
这 个 模型 预测 正确 的 概率 为 0.5， 则 新 模型 必须 比 抛 硬币 模型 要 好 。 基 础 模型 可 以 
指定 为 我 们 能 够 实现 的 最 简单 模型 。 

e 模型 的 简洁 性 。 奥 卡 姆 剃刀 准则 指出 ， 正 确 的 答案 往往 是 较 简 单 的 那个 答案 。 这 就 
意味 着 模型 必须 尽 可 能 地 简单 。 模 型 过 于 复杂 ， 意 味 着 需要 对 其 进行 调整 。 


e 模型 的 可 解释 性 。 模 型 的 结果 是 否 能 够 对 我 们 的 问题 有 解释 ， 我 们 尽 可 能 地 布 望 模 
型 是 有 含义 的 ， 是 可 以 理解 的 ， 而 不 是 一 个 黑箱 。 

单独 构建 我 们 在 上 文 构建 的 随机 和 森林 模型 : 

library (randomForest) 


set.seed(1) 
ran <- randomForest(Species-.,data = iris) 


ran 

LES 

## Call: 

##  randomForest(formula = Species ~ ., data = iris) 
Td Type of random forest: classification 
## Number of trees: 500 

## No. of variables tried at each split: 2 

## 

## OOB estimate of error rate: 4.675% 

## Confusion matrix: 

Lx setosa versicolor virginica class.error 
## setosa 50 0 0 0.00 

## versicolor 0 47 3 0.06 

## virginica 0 4 46 0.08 


可 以 看 到 ， 模 型 的 误 莽 为 4.67%， 这 意味 着 模型 有 一 个 比较 好 的 预测 效果 。 观 罕 泥 清 
AREE, AX 4 versicolor 被 错 分 类 为 virginica，3 个 virginica 1x £8 27 2$ 7J versicolor。 接 看 
可 以 去 查看 这 些 分 类 的 变量 为 什么 会 被 分 类 错 ， 并 对 其 进行 优化 。 

男 外 ， 模 型 的 可 解释 性 和 模型 的 简洁 性 都 不 是 很 好 ， 这 是 由 模型 本 身 决定 的 。 

因此 ， 有 时候 我 们 同样 面临 取舍 ， 是 使 用 可 解释 性 较 才 而 预测 能 力 较 高 的 模型 (如 深 
度 学 习 ) ， 还 是 使 用 解释 性 比较 好 而 预测 能 力 一 般 的 模型 (如 决策 树 、 人 逻辑 回 归 )〉 。 这 取 
决 于 具体 的 业务 目的 。 为 外 ， 需 要 注意 使 用 训练 集 来 评价 的 模型 对 数据 集 的 拟 合 程度 。 使 
用 测试 集 来 评价 模型 的 泛 化 能 力 ， 也 束 是 当 有 一 个 新 的 数据 时 ， 通 过 新 数据 来 预测 模型 是 
否 能 够 预测 准确 。 一 般 期 望 模型 对 新 的 数据 有 很 好 的 预测 能 力 ， 即 要 求 模型 的 泛 化 能 力 要 
好 。 模 型 在 训练 集 上 表现 得 很 好 ， 并 不 一 定 在 测试 集 同样 表现 好 ， 因 为 模型 可 能 会 过 拟 合 。 
因此 没有 必要 在 训练 集中 要 求 模型 有 非常 局 的 预测 精度 。 


1.2.6 ”展示 结果 


对 数据 有 了 充分 的 了 解 及 建立 起 令 人 满意 的 模型 后 ， 需 要 将 我 们 的 成 采 分 孚 给 大 家 ， 
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分 至 的 对 象 包括 这 个 模型 所 涉及 的 各 种 人 员 ， 如 出 资方 。 

为 外 ， 需 要 将 数据 分 析 项 目 整 个 过 程 的 文档 进行 归 类 分 组 与 总 结 ， 确 保 数 据 分 析 项 目 
的 结 琳 有 可 里 复 性 。 然后 编制 模型 文档 , 以 供 相 天 人 员 使 用 , 并 为 运行 和 维护 模型 所 供 支 撑 。 

需要 注意 的 是 ， 对 于 不 同 的 人 员 需 要 展示 不 同 的 信息 。 对 于 出 资方 ， 需 要 展示 这 个 数 
据 分 析 结果 的 业务 效果 ， 这 个 模型 能 带 来 什么 ， 例 如 ， 使 用 这 个 模型 能 提高 50% 的 销售 额 ， 
让 出 资方 确切 地 知道 这 个 模型 的 价值 。 对 于 同行 ， 则 需要 探讨 技术 性 的 东西 ， 如 这 个 项 目 
遇 到 的 挑战 、 所 用 到 的 一 些 创新 性 方法 。 

这 个 步骤 很 重要 , 好 的 展现 效果 有 助 于 用 户 获 取 更 多 的 资源 , 以 在 未 来 更 好 地 开展 工作 。 


1.2.7 部署 与 维护 模型 


模型 构建 完成 并 不 意味 看 数据 分 析 项 目的 结束 ， 还 需要 将 模型 应 用 于 现实 的 环境 。 在 
现实 环境 中 使 用 模型 ， 往 往 会 磁 到 很 多 意 想 不 到 的 问题 ， 有 些 问题 通过 简单 的 修正 束 可 以 
解 凑 ， 有 些 问题 可 能 会 造成 很 严重 的 后 采 。 这 个 时 候 需 要 对 模型 进行 监控 ， 及 时 地 及 现 和 
解决 问题 ， 避 免 产生 灾难 性 的 后 果 。 

随 着 现实 环境 的 变化 ， 模 型 可 能 不 再 适用 ， 这 个 时 候 需 要 对 模型 进行 更 新 ， 构 造 一 个 
更 适合 当前 环境 的 模型 。 所 以 ， 一 个 数据 分 析 项 目的 完成 往往 意味 着 一 个 新 项 目的 开始 。 


1.3 à 结 


数据 分 析 项 目 存在 大 量 的 反复 工作 ， 整 个 项 目的 流程 并 不 是 线性 的 ， 而 是 在 不 断 地 反 
复 中 进行 的 。 在 项 目 进 行 的 过 程 中 ,会 过 到 很 多 的 障碍 和 意外 ， 在 克服 这 些 障 人 碍 的 同时 ， 
需要 注意 让 所 有 的 利益 相关 方 了 解 项 目 发 展 情况 、 所 过 阻碍 ， 因 为 这 可 以 帮助 你 在 解决 问 
题 的 时 候 获 取 更 多 支 持 ， 并 且 在 项 目 完成 之 后 ， 所 有 人 不 会 对 项 目的 结 采 感到 总 外。 本 重 
介绍 了 数据 分 析 的 基本 流程 ， 包 括 定 义 问 题 、 收 集 数 据 、 数 据 处 理 与 特征 选择 、 建 立 模型 、 
评价 模型 .结果 展示 、 模 型 部 署 与 维护 等 过 程 . 这 些 过 程 并 不 是 线性 的 关系 , 而 是 不 断 往复 的 。 


a0. 


cB 2:3 ”数据 的 读 取 

数据 的 读 取 是 进行 数据 分 析 的 最 基本 的 步 又， 在 进行 数据 分 析 时 需要 将 
各 种 各 样 数据 源 的 数据 加 载 到 及 语言 环境 中 进行 处 理 、 分 析 、 建 模 。 数 据 源 
可 能 是 及 语言 自 带 的 数据 格式 RData， 也 有 可 能 是 .csv 文 件 、.xlsx 文件 或 
者 .spss. .sas 文件 。 有 时 候 还 需要 从 关系 数据 库 中 获取 数据 ， 这 时 要 使 用 及 
语言 操作 关系 数据 库 。 本 章 主 要 探讨 各 种 读 取 / 写 出 数据 的 方法 , 并 进行 总 结 ， 
在 及 语言 中 灵活 地 导入 / 导出 数据 。 


2.1 RData 数据 


RData 是 R 语言 的 文件 对 象 ， 可 以 储存 R 语言 中 的 各 种 数据 结构 ， 包 括 
器 量 数 据 框 、 列 表 等 。 在 RR 语言 中 生成 的 各 种 结果 都 是 R 对 象 ， 都 可 以 通过 
RData 文件 格式 进行 储存 ， 储 存 的 方式 是 通过 save 函数 进行 存储 。 

这 里 使 用 RR 语言 目 市 的 iris 数据 集 做 演示 ， 在 演示 中 将 数据 储存 为 RData 
格式 ， 并 且 加 载 储存 好 的 RData 数据 。 其 中 ，1s( ) 函数 用 于 查看 工作 环境 中 
存在 哪些 变量 ， 首 先 使 用 save( ) 函数 将 iris 储存 成 iris.RData 数据 集 ， 然 后 通 
过 load( ) 函数 对 数据 进行 加 载 。Save( ) 函数 的 第 一 个 参数 是 需要 存储 的 对 象 ， 
第 二 个 参数 是 存储 文件 的 路 径 ; load() 函数 的 第 一 个 参数 是 文件 读 取 的 路 径 。 


is() 


## character(0) 
data(iris) 
head(iris) 


## Sepal.Length Sepal.Width Petal.Length Petal.Width Species 
$4 1 aal ou 1.4 0.2 setosa 
## 2 4.9 zm 1.4 0.2 setosa 
## 3 4.7 3 2 i 0.2 setosa 
## 4 4.6 ED js 0.2 setosa 
## 5 sd EMT 1.4 0.2 setosa 
## 6 Sad 3.9 mr 0.4 setosa 
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is() 
$$ [1] "iris" 


使 用 bO 函数 查看 工作 环境 中 有 哪些 数据 ， 然 后 使 用 save( ) 函数 对 iris 数据 进行 储存 : 


save(iris,file = "iris.RData") 
rm(list = ls()) 
JE, 


## character (0) 


存储 的 文件 名 为 iris.RData， 然 后 清理 数据 框 ， 这 时 工作 环境 没有 任何 数据 。RData ft 
式 的 数据 可 以 通过 load( ) 函数 进行 加 载 。 

load("/iris.RData") 

TS 

rl 

可 以 看 到 ， 工 作 环境 中 又 出 现 了 ins 数据 集 ， 这 说 明 数据 加 载 成 功 了 。 

上 文 将 一 个 数据 集 储存 为 RData 数据 格式 ， 但 是 在 现实 的 数据 分 析 问 题 中 ， 需 要 处 理 
的 数据 集会 有 很 多 ， 当 多 个 数据 集 需 要 储存 的 时 候 ， 方 法 之 一 是 将 每 一 个 数据 集 储 存 成 一 
个 RData 文件 ， 但 是 ， 这 并 不 是 一 个 好 的 方式 。 一 个 好 的 方式 是 将 多 个 数据 集 同 时 储存 为 
RData 文件 ， 实 现 的 方式 是 将 需要 储存 的 多 个 数据 集 名 称 传递 到 save( )， 这 样 束 将 多 个 数 
据 集 同 时 储存 为 一 个 RData 文件 。 下 面 构建 了 一 个 新 的 数据 集 iris1， 然 后 同时 存储 irisl 和 
iris: 

ijrisl <- iris 

desee 

Fe TLI Viris?” TIELSL" 

save(irisl,iris,file = "iris.RData") 

rm(list = ls()) 

Lak} 

## character (0) 

# 这 里 我 们 将 两 个 数据 集 储 存 起 来 了 ， 然 后 清理 了 工作 空间 ， 接 下 来 加 载 储 存 起 来 的 RData 数 据 

load ("/Users/milin/Downloads/R 语 言 数 据 分 析 /iris.RData") 

ls () 

## [1] "iris" "irisl" 

使 用 Rstudio， 可 以 用 鼠标 单 击 的 方法 实现 数据 存储 。 如 果 想 要 保存 工作 空间 中 的 所 有 
数据 集 ， 只 需要 单 击 你 存 按钮 ， 如 图 2.1 所 示 。 


PAE 


Environment History Connections 


— LJ |E mpor Dataset - | g 


p Sen inire - 


150 obs. of 5 variables 
150 obs. of 5 variables 


图 2.1 数据 保存 


单 击 保存 按钮 之 后 ， 输 入 想 要 保存 的 变量 名 字 ， 然 后 单 击 确认 按钮 即 可 。 


2.2 readr 高 效 读 取 数据 


readr 包 是 与 数据 输入 /输出 相关 的 包 。 这 个 包 是 由 Hadley Wickham 等 人 开发 的 ， 提 供 
了 快速 、 友 好 的 方式 来 读 取 和 矩阵 数据 ， 即 csv tsy 等 数据 格式 的 数据 。 
想 要 使 用 这 个 包 ， 首 先 需要 下 载 这 个 包 ， 可 以 通过 如 下 方式 进行 下 载 : 


install.packages("readr") 


install.packages( ) RAHAT FRI EE., Kimi PAEXIBPES SIX BRA BUT EA T A 
所 需要 的 包 。 
readr 包 中 的 主要 函数 如 表 2.1 所 示 。 


表 2.1 readr 包 中 的 主要 函数 
read csv) | 读 取 以 逗号 分 隔 的 文件 ， 如 .csv 文件 、.tsv 文件 


与 read. csv 类 似 ， 但 是 其 可 以 读 取 以 任意 符 分 隔 的 文件 ， 通 过 delim 参数 指定 分 
隔 符号 

读 取 以 制 表 符 为 分 隔 符 的 文件 

读 取 以 空格 为 分 隔 符 的 文件 


再 要 注意 的 证， 只 有 read_delim( ) 函数 需要 指定 分 隅 符 来 谈 取 对 应 分 隅 符 的 数据 ， 其 


read delim( ) 


ü 
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他 函数 只 能 读 取 指定 分 隔 符 的 数据 。 总 体 来 说 , 这 些 函 数 的 使 用 方式 相似 , 并 有 共同 的 参数 ， 
如 表 2.2 所 示 。 
表 2.2 参数 解释 


这 个 参数 的 值 可 以 是 FALSE、TRUE 或 者 一 个 字符 向 量 ， 默 认 是 TRUE。 参 数 
设置 为 TRUE 表示 读 取 第 一 行 作为 列 名 ， 参 数 设 置 为 字符 癌 量 ， 表 示 将 字符 问 


量 作 为 数据 集 的 列 名 字 
一 个 数值 ， 表 示 读 取 数 据 时 跳 过 多 少 条 数据 


一 个 数值 ， 表 示 最 多 读 取 多 少 条 数据 
注 : n max 和 skip 这 两 个 参数 在 只 需要 读 取 一 部 分 数据 的 时 候 会 用 到 。 
关于 readr 包 的 优点 ， 最 重要 的 一 点 是 ，readr 包 读 取 数 据 的 速度 比 R 语言 自 带 的 读 取 
数据 函数 要 快 很 多 。R 语言 日 市 的 读 取 数据 水 数 如 表 2.3 Fr. 
表 2.3 R 语言 自 带 的 读 取 数据 函数 


读 取 文件 的 格式 


read.csv( ) 读 取 以 逗号 为 分 隔 符 的 数据 


读 取 以 空格 为 分 隔 符 的 数据 
读 取 以 换行 符 为 分 隔 符 的 数据 


下 面 比 较 一 下 readr 包 与 迟 语言 自 带 的 数据 读 取 国 数 , 这 里 用 到 了 readr 包 提供 的 数据 集 ， 
这 些 数据 集 可 以 通过 readr example() 进行 查看 : 


library(readr) 
Cdr omeLenl 


## [1] "challenge.csv" "epa78.txt" "example.1log" 
$4 [4] "fwf-sample.txt" "mnassey-rating.txt" "mtcars.csv" 
fE [7] "mtcars.csv.bzz2" pie == ee 


readr example( ) 输出 了 readr 包 所 提供 的 数据 集 名 称 ， 可 以 看 到 ，readr 包 提 供 了 8 组 
数据 集 。 进 一 步 通 过 readr example( ) 加 上 对 应 的 数据 集 获 取 数 据 的 路 径 : 
readmlexampiel challenoge SX 


$$ [1] "/Library/Frameworks/R.framework/Versions/3.5/Resources/library/ 
readr/extdata/challenge.csv" 


这 样 就 获取 到 了 readr 包 提 供 的 数据 集 所 在 计算 机 中 的 链接 ， 然 后 通过 这 里 面 的 数据 集 
来 比较 readr 包 与 R 目 带 的 数据 读 取 函 数 的 效率 。 
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(1) 使 用 read.csv( ) 函数 来 读 取 数据 所 花费 的 时 间 : 


system.time (read.csv (readr example ("challenge.csv"))) 
i user system elapsed 
## 0-007 BIET 0.0D9 


代码 中 的 system.time( ) 函数 用 于 获取 代码 的 运行 时 间 。 可 以 看 到 ，read.csv( ) 函数 证 取 
数据 的 时 间 大 约 为 0.01 秒 。 
(2) 使 用 read csv() 国 数 旋 取 数据 ， 分 析 读 取 时 间 : 


system.time(read csv (readr example ("challenge.csv"))) 
## user system elapsed 
## Bi ces 0.006 DoD 


可 以 看 到 ，read csv( ) 函数 谈 取 此 数据 所 人 花费 的 时 间 约 为 0.03 $9, read csv( ) 函数 比 
read.csv( ) 函数 稍微 慢 了 一 些 。 这 是 因为 数据 集 太 小 了 ， 体 现 不 出 两 者 的 差异 。 因 此 ， 在 读 
取 小 样本 的 时 候 ，readr 包 读 取 数 据 的 速度 并 没有 优势 。 

下 面 选取 一 个 更 大 的 数据 集 来 比较 两 者 的 读 取 速 度 ， 这 个 数据 集 来 自 有 语言 的 一 个 绘 
图 包 ggplot 所 提供 的 diamonds 数据 集 ， 这 个 数据 集 包 仿 5 万 多 条 数据 。 

首先 将 数据 集 保存 为 .csv 格式 的 文件 ， 使 用 write_csv( ) 函数 将 数据 储存 下 来 ，write_ 
csv( ) 函数 的 第 一 个 参数 是 数据 集 ， 第 二 个 参数 是 数据 要 保存 的 路 径 。 


require (ggplot2) 
write csv (diamonds, path = “diamond.cav ) 


(1) 使 用 read.csv( ) 函数 读 取 diamonds 大 样本 数据 集 : 


System.time(read.csv("diamond.csv")) 
ux user system elapsed 
## pos 0.009 0.146 


"EVE SU, HEREA IRIZIZJ 0.15 秒 。 
(2) 使 用 read csv( ) 函数 读 取 diamonds 大 样本 数据 集 : 
System.time(read csv("diamond.csv")) 


ub user system elapsed 
## DESI 0.003 0.060 
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可 以 看 到 ， 其 所 化 费 的 时 间 约 为 0.06 $^, read csv( ) 图 数 读 取 数 据 的 速度 比 read.csv( ) 
函数 读 取 数 据 的 速度 快 了 一 倍 以 上 。 数 据 集 越 大 ， 二 者 之 间 效 率 的 差异 也 就 越 大 。 
另外 ， 需 要 注意 的 是 , 使 用 readr 包 读 取 数 据 ， 节 后 获取 的 数据 格式 为 tibble。 


dia <- read csv("diamond.csv") 
class (dia) 
$$ [1] "spec tbl df" "tbl df" SEDII "data.frame" 


tibble 本 质 上 也 是 数据 框 的 结构 ， 本 质 上 和 data.frame 数据 结构 是 一 样 的 ， 但 是 其 有 比 
data.frame 更 好 的 使 用 体验 。data.frame 如 果 直 接 在 输入 框 输出 ， 则 会 输出 所 有 的 结果 ， 在 
数据 比较 多 的 时 候 会 造成 刷 屏 的 现象 ， 解 决 方案 是 使 用 head 控制 输出 的 行 数 。 然 而 ，tibble 
数据 在 输出 的 时 候 会 自动 调用 head 控制 输出 的 行 数 ， 不 会 刷 屏 。 


2.3 i£HX Excel 数据 


EER Excel 数据 可 以 使 用 readxl 包 ， 这 个 包 的 作者 也 是 Hadley Wickham 等 人 ， 这 个 包 
提供 了 高 效 读 取 Excel 数据 的 方式 ， 主 要 图 数 如 下 : 

€ read excel( ) 

€ read xls( ) 

€ read xlsx( ) 

read excel ( ) 函数 会 目 动 判断 文件 的 扩展 名 是 xls， 还 是 xlsx， 如果 明 确 知 道 文件 扩展 
名 是 xls 或 者 是 xlsx， 则 可 直接 指定 参数 ， 以 表明 使 用 xls 或 者 xlsx 文件 会 更 合适 一 些 。 

天 于 这 个 读 取 Excel 数据 的 函数 ， 几 个 重要 参数 如 下 : 

@ 数据 文件 的 路 径 。 

€ Excel 的 Sheet, KRAATER Excel 中 第 一 个 Sheet 的 数据 。 

datasets <- readxl example("datasets.xlsx") 


read excel(datasets) 
## # A tibble: 150 x 5 


vH Sepal.Length Sepal.Width Petal.Length Petal.Width Species 
Td «dbl» «db1» «db1l» «dbl» <chr> 

## 1 ow at 1.4 0.2 setosa 
## 2 4.9 3 1.4 0.2 setosa 


* 2 s BEN 


## 3 SUN Le, 1.3 0.2 setosa 
## # c; with 140 more rows 

woEGD Geweml E EEE EAEE 

## # A tibble: 32 x 11 


## mpg cyl disp hp drat wt dsec Vs 


am gear carb 


## <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl» 


## 1 21 6 160 qu SSH pg 16.5 0 il 4 
## 2 21 6 160 I 23529 ABe TD 0 I 4 
TT 3 22.8 4 108 gs SBT 2.32 stb il il 4 


l 


read excel(datasets) 谈 取 的 是 datasets 这 个 Excel 文件 中 第 一 个 Sheet 的 数据 ，read - 


excel(datasets, 2), 读 取 的 是 datasets 这 个 Excel 文件 中 第 二 个 Sheet 的 数据 。 


需要 注意 的 是 ， 如 果 Excel 中 的 Sheet 有 名 称 ， 也 可 以 通过 Sheet 名 称 来 指定 ， 例 如 : 


Ee 
## 4$ A tibble: 71 x 2 

## weight feed 

## zdbl> UNE 

## 1 179 horsebean 

## 2 160 horsebean 


## 3 136 horsebean 


2.4 ZH SPSS, SAS, STATA 数据 


在 做 统计 分 析 的 时 候 ， 往 往 可 能 还 会 涉及 其 他 统计 软件 ， 如 SAS、SPSS。 不 同 软件 储 
存 数 据 的 格式 不 一 样 ， 这 时 需要 一 个 工具 对 不 同 格 式 的 数据 进行 操作 。 在 R 语言 中 可 以 使 
用 haven 包 ， 这 个 包 用 于 读 取 其 他 统计 软件 的 数据 ， 如 SAS 的 sas7bdat 格式 数据 、SPSS 的 


sav 格式 数据 。 
1. 读 取 SAS 数据 : read sas() 


使 用 system.file 来 获取 haven 包 中 的 iris.sas7bdat 数据 集 的 路 径 ， 然 后 通过 read sas( ) 


图 数 来 读 取 sas 格式 的 数据 : 
path <- system.file("examples", "iris.sas7bdat", package = "haven") 
path 


## [1] "/Library/Frameworks/R.framework/Versions/3.5/Resources/library/ 


haven/examples/iris.sas7bdat" 
read sas(path) 
## # A tibble: 150 x 5 


1 
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Th Sepal Length Sepal Width Petal Length Petal Width Species 
## «dbl» «dbl- «db1» <dbl> €chr- 

## 1 rub 25 1.4 0.2 setosa 
$45 2 4.9 3 1.4 0.2 setosa 
## 3 4.7 S NY. 1 .3 0.2 setosa 


2. 读 取 SPSS 数据 : read sav() 
使 用 system.file 来 获取 haven 包 中 的 SPSS 格式 的 数据 集 (iris.sav 数据 集 ) ， 然 后 使 用 
read sav( ) 函数 谈 取 数据 : 


path «- system.file("examples", "iris.sav", package = "haven") 

path 

## [1] "/Library/Frameworks/R.framework/Versions/3.5/Resources/library/ 
haven/examples/iris.sav" 

read sav (path) 

## d A tibble: 150 x 5 


Td Sepal.Length Sepal.Width Petal.Length Petal.Width Species 
$4 «dbl» «db1» <dbl> «dbl»  «dbl-*lbl» 
## 1 s Ho 1.4 0.2 1 [setosa] 
## 2 4.9 d 1.4 0.2 1 [setosa] 
## 3 m zm rec 0.2 1 [setosa] 


3. 读 取 STATA 数据 : read dta() 
先 获取 STATA 格式 的 数据 集 Ciris.dta 数据 集 ) ， 然 后 使 用 read dta( ) 读 取 数 据 : 


path <- system.file("examples", "iris.dta", package = "haven") 

path 

## [1] "/Library/Frameworks/R.framework/Versions/3.5/Resources/library/ 
haven/examples/iris.dta" 

read dta(path) 

$4 # A tibble: 150 x 5 


Td sepallength sepalwidth petallength petalwidth species 
LE «dbl1» «dbl» <dbl> «dbl» «chr» 

## 1 E d 1.40 0.200 setosa 
## 2 4.90 3 Ap 0.200 setosa 
## 3 4.70 3221 1-30 0.200 setosa 


另外 ， 将 及 语言 环境 中 的 数据 转变 为 SAS、SPSS、STATA 的 数据 ， 可 以 通过 如 下 函数 
实现 。 
(1)write sas(): write sas( ) 的 第 一 个 参数 是 产 数 据 集 , 第 二 个 参数 是 数据 保存 的 路 径 。 


write Sas(dara meearerearn meea eas Tevez cen 


18. 
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(2)write_sav( ) write sav( ) 的 第 一 个 参数 是 源 数 据 集 , 第 二 个 参数 是 数据 保存 的 路 径 。 
write saví(data = mtcars,path = "mtcar.sav") 


(3) write dta( ): write dta( ) 的 第 一 个 参数 是 源 数据 集 ， 第 二 个 参数 是 数据 保存 的 路 
径 和 文件 名 。 


write dta (data = mtcars,path = "mtcar.dta") 


在 实际 的 工作 中 ， 数 据 往 往 集中 存储 在 数据 库 中 ， 因 此 需要 对 数据 库 进 行 读 取 操 作 。R 
语言 可 以 与 市 面 上 的 所 有 数据 集 进行 链接 、 操作, 本 节 将 介绍 如 何 链 接 数 据 库 , 并 进行 操作 。 
下 面 列 举 R 语言 操作 各 类 数据 库 的 相关 资料 链接 。 

e RODBC: R 中 ODBC FR LA. E A AHA http://cran.r-project.org/web/packages/ 

RODBC/, 

e DBI: 在 RR 和 数据 库 管理 系统 之 间 定 义 一 个 公共 的 接口 。 官 网 网 址 为 https://github. 

com/rstats-db/DBI.; 

@ Elastic: Elasticsearch HTTP API 的 包装 器 。 人 官网 网 址 为 https;//github.com/ropensci/ 

elastlc。 

e Mongolite: R 中 Mongo 客户 端 。 官 网 网 址 为 https://github.conmyjeroenooms/mongolite。 

€ RMySQL: 及 语言 的 MySQL 数据 库 接口 。 官 网 网 址 为 http://cran.r-project.org/web/ 


packages/RMySQL/., 

© ROracle: R 中 Oracle 数据 库 的 接口 。 官 网 网 址 为 http://cran.r-project.org/web/packages/ 
ROracle/index.html. 

e RPostgreSQL: R 语言 的 PostgreSQL 数据 库 系 统 接口 。 官 网 网 址 为 https://code.google. 
com/p/rpostgresql/. 

e RSQLite: R 语言 SQLite 4# 4E v, "E AA HHA http;//cran.r-project.org/web/packages/ 
RSQLite/, 


e RJDBC: 通过 JDBC 接口 访问 数据 库 。 官 网 网 址 为 http://cran.r-project.org/web/packages/ 
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RJDBC/, 
e RMongoDB: R 中 MongoDB 驱动 。 官 网 网 址 为 https:Wgithub.com/mongosoup/rmongodb。 
e RRedis: R 中 Redis 驱动 。 官 网 网 址 为 http://cran.r-project.org/web/packages/rredis/。 
€ RCassandra: Apache Cassandra 直接 接口 (不 是 Java) , 提供 了 最 多 的 基本 功能 。 
官网 网 址 为 http://cran.r-project.org/web/packages/RCassandra/index.html。 
e RHive: 通过 Apache Hive 的 及 扩展 促进 分 布 式 计算 。 人 官网 网 址 为 https://github.com/ 
nexr/RHive, 
@ RNeo4j: Neo4j 图 形 数据 库 驱 动 。 官 网 网 址 为 https://github.com/nicolewhite/Rneo4j。 
本 章节 以 Redshift 数据 库 为 例 ， 使 用 两 种 方法 进行 链接 。 
1. RJDBC 
下 面 介绍 使 用 RJDBC 包 来 对 数据 库 进 行 链 接 。 下 面 的 代码 吏 是 使 用 RJDBC 包 来 链接 
Redshift 数据 库 的 。 只 需要 修改 对 应 的 数据 库 链 接 、 数 据 库 的 账 扎 密码、 端口 号 等 内 容 ， 运 
行 即 可 链接 对 应 的 数据 库 。 首 先 ， 通 过 installpackages("RJIDBC") 下 载 对 应 包 ; 然后 ， 通 过 
library 加 载 需 要 的 包 。 第 一 步 是 下 载 亚 马 逊 Redshift 的 JDBC 驱动 ， 使 用 download.file 进行 
下 载 。 下 载 完成 之 后 运行 驱动 〈 使 用 JDBC 函数 , 传 入 之 前 下 载 好 的 驱动 的 路 人 径 作 为 参数 ) 。 
完成 之 后 ， 输 入 数据 库 的 地 址 、 靖 口 、 数 据 库 名 、 用 尸 名 、 径 个 。 将 这 些 信 息 控 照 对 应 的 
格式 赋值 给 一 个 字 从 串 ， 然 后 就 可 以 链接 数据 库 了 “使 用 dbConnect( ) 函数 ， 这 个 函数 的 
第 一 个 参数 是 JDBC 的 返回 值 ， 男 一 个 参数 是 之 前 生成 的 天 于 数据 库 地 址 、 账 号 、 密 码 等 
信息 的 字符 串 ) 。 


install.packages ("RJDBC") 

library (RJDBC) 

# 下 载 亚马逊 Redshift JDBC 的 驱动 
download.file('http://s3.amazonaws.com/redshift-downloads/drivers/ 
RedshiftJDBC41-1.1.9.1009.jar', 'RedshiftJDBCA41-1.1.9.1009.3jar') 


+ 链接 亚马逊 Redshitt 

doro Br <~ JDBC cem amaz cstcre dresden AE 
"RedshiftJDBC41-1.1.9.1009.jar", identifier.quote2""") 

# 4 url <- "«XJDBCURL»:«PORT»/«DBNAME»?user-«USER»&password-«PW» 

$ url <- "jdbc:redshift://demo.ckffhmu2rolb.eu-west-l.redshift. 
amazonaws.com 


url <- "«JDBCURL»:«PORT»/«DBNAME»?user-«USER»&password-«PW» 


:5439/demo?user-XXX&password-XXX" 
conn <- dbConnect (driver, url) 


20) 
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本 章节 的 代码 都 可 以 直接 运行 , 其 中 , 需要 修改 URL. 输入 所 使 用 的 数据 库 的 名 称 、 端口 、 
用 尸 名 和 密码 ， 然 后 通过 dbConnect 进行 链接 ， 和 链接 好 后 即 可 对 数据 进行 操作 。 操 作 数 据 
库 用 到 的 函数 是 dbGetTables( )。 使 用 dbGetTables( ) 传 入 链接 的 数据 库 ， 会 显示 数据 库 里 面 
的 所 有 表格 名 称 。 通 过 SQL 代码 操作 数据 同样 使 用 dbGetTables( ) 函数 ，dbGetTables( ) 函数 
在 传 入 链接 的 数据 库 之 后 ， 第 二 个 参数 可 以 是 一 个 SQL 代码 ， 人 返回 结果 了 就 是 SQL 代码 的 
运行 结果 。 最 后 使 用 dbDisconnect( ) 函数 来 关闭 数据 库 。 


# 显示 所 有 的 表格 

dbGetTables (conn) 

dbGetQuerylconn, "SELECT table name FROM information schema.tables 

WHERE table schema = 'public'") # 通过 SQL 代码 获取 数据 

# 关闭 数据 库 链接 

dbDisconnect (conn) 

需要 注意 的 是 ，dbGetQuery( ) 会 将 SQL 代码 的 结果 全 部 返回 给 民 ， 并且 以 数据 框 的 方 
式 进 行 保存 ， 如 果 数 据 量 比较 大 , 则 这 种 方式 会 很 慢 , 因此 最 好 不 要 轻易 地 将 结果 返回 给 R, 
最 好 的 方式 是 用 SQL 进行 数据 操作 ， 然 后 将 最 终 的 结果 返回 给 R， 这 样 效率 会 更 高 一 些 。 

2. dplyr 

dplyr 是 一 个 用 于 数据 分 析 的 包 ， 这 个 包 依 然 可 以 用 于 操作 数据 库 ， 使 用 这 个 包 的 好 处 
是 可 以 像 处 理 RR 的 数据 一 样 ， 去 处 理 数据 库 中 的 数据 。 这 意味 看 并 不 圾 要 写 SQL 去 操作 
数据 ， 因 为 dplyr 可 以 将 及 函数 直接 转化 成 SQL 代码 ， 然 后 在 数据 库 中 运行 。 首 先 还 是 下 
载 相 应 的 包 ， 然 后 需要 加 载 dplyr 和 RPostgreSQL 包 ， 最 后 要 链接 数据 库 。 使 用 dplyr 链接 
数据 库 的 方法 与 RJDBC 不 一 样 。dplyr 使 用 src. postgres( ) 函数 链接 数据 库 ， 函 数 的 第 一 个 
参数 是 数据 库 的 名 称 ， 第 二 个 参数 host 是 数据 库 的 链接 ， 第 三 个 参数 port 是 数据 库 对 应 的 
wO, BUTER user 是 数据 的 用 户 名 ， 第 五 个 参数 password 是 用 户 名 对 应 的 密码 。 运 行 
src postgres( ) 即 可 链接 数据 库 。 


install.packages("dplyr") 4 安装 
library (dplyr) 


library (RPostgreSQL) 


myRedshift <- src postgres ('demo', f 数据 库 的 名 称 


host = 'redshiftdemo.ckffhmu2rolb.eu-west-l.redshift.amazonaws.com', 14 


数据 库 的 链接 


(2 
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port = 5439, # 数据 库 的 端口 
Dh c ege depu # HP 
password - "XXX") # 用 户 密码 


在 上 面 的 代码 中 ， 修 改 src postgres( ) 函数 中 的 数据 库 名 称 、 数 据 库 链 接 、 端 口号 、 用 
户 名 、 用 户 名 密码 ， 就 可 以 创建 数据 库 的 链接 。 链 接 数 据 库 之 后 ， 即 可 对 数据 库 进行 数据 
操作 (通过 tbl( ) 函数 进行 操作 ， 操 作 的 方式 很 多 ， 可 以 直接 通过 表 名 调用 数据 ， 也 可 以 通 
过 SQL 代码 调用 数据 。 如 果 tbl( ) 直接 传 入 链接 好 的 数据 库 ， 则 会 返回 数据 库 中 的 所 有 表 
名 称 。 使 用 tbl( ) 传 入 链接 好 的 数据 库 和 对 应 的 表 名 , 则 会 返回 对 应 表 名 称 的 数据 ) 。 同 样 地 ， 
也 可 以 通过 SQL 操作 数据 ， 这 个 时 候 需 要 使 用 dplyr 中 的 SQL 函数 。 


# 创建 对 一 个 表 的 链接 
flights <- tbl (mvRedshift, “mvtablel™) 


# 或 者 

tbl lcon, dbplyr::in schemaí("abc", "mytablei")) 

# 或 者 

remote df = tbl(sc,from = "abc.mytablel") # 定义 数据 源 表 
# 或 者 


LENUOLESUD EOIS Erom = Sg e leee Era a e 


# 这 4 种 方式 都 可 以 创建 对 一 个 表 的 链接 
remote df + 查看 这 个 表 的 部 分 数据 


El) # 选取 部 分 的 数据 
remote df <- collect (remote df) # 将 数据 库 的 结果 下 载 到 R 环 境 


创建 好 数据 库 的 链接 之 后 ， 需 要 获取 表 的 数据 〈 可 以 采用 上 面 4 种 方式 获取 数据 ) 。 
将 获取 的 结 琳 在 及 的 终 痕 进行 输出 ， 会 返回 数据 库 中 数据 的 结束 ， 但 这 并 不 意味 痢 数 据 庄 
的 结果 已 经 保存 在 及 环境 中 了 ， 返 回 的 数据 只 是 输出 的 这 张 表 的 部 分 结果 ， 并 没有 保存 到 
R 坏 境 中 ， 因 此 ， 速 度 比较 快 。 如 果 想 将 数据 库 中 的 结果 保存 到 R 环境 ， 则 需要 主动 地 指 
定 这 样 的 操作 ， 使 用 collect( ) 函数 将 数据 保存 到 R 环境 中 。 需 要 注意 的 是 ， 这 样 的 操作 会 
很 耗费 时 间 ， 因 此 有 必要 避免 返回 大 量 的 结果 ， 只 将 最 终 的 结果 返回 到 R 环境 。 

remote df %>% select(varl,var2) 的 作用 是 选取 abc.mytablel 这 张 表 中 的 两 行 数据 ， 这 样 
的 写法 完全 是 R 的 数据 操作 的 写法 。 其 背后 的 原理 是 ， 这 行 代码 会 被 翻译 成 SQL 代码 : 


select varl,var2 from abc.mytablel 


同样 ， 其 他 的 数据 操作 也 会 被 转变 成 SQL 代码 ， 然 后 传递 到 数据 库 进 行 操作 ， 最 后 将 
结果 返回 给 终端 。 


| " P) = EIRA HE 


2.06 ù £f 


通过 对 本 章 的 学 习 ， 大 家 已 经 了 解 了 及 中 绝 大 部 分 的 获取 数据 的 方式 、 读 取 分 隅 符 的 
文件 、 读 取 其 他 统计 软件 格式 的 文件 ， 以 及 数据 库 操作 。 

这 一 步 很 重要 ， 毕 也 任 何 一 个 项 目 部 是 从 获取 数据 开始 的 。 

另外 ， 还 有 一 种 很 重要 的 数据 获取 方式 ， 即 从 网 络 中 获取 数据 。 这 一 部 分 属于 仆 虫 相 
RWAF, HREN- TETTRE. 
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数据 探索 是 数据 分 析 项 目 中 非常 重要 的 步骤 ,用 于 对 数据 进行 全 面 了 解 ， 
进而 从 数据 中 发 现 有 价值 的 信息 。 数 据 探 索 的 内 容 包 括 数 据 的 清洗 、 缺 失 值 
的 识别 与 转换 、 极 端 值 的 识别 与 处 理 、 数 据 的 分 布 、 数 据 之 间 的 关系 分 析 。 


3.1 缺失 值 的 识别 与 处 理 


号 失 值 是 在 进行 数据 分 析 任 务 时 较 弟 过 见 的 问题 之 一 。 产 生 缺 失 值 的 原 
因 很 多 ， 如 数据 在 存储 的 过 程 中 出 现 了 错误 ， 或 者 在 获取 数据 的 时 候 没 有 获 
取 到 数据 ， 从 而 产生 了 衬 信 。 

处 理 缺 失 值 问题 的 第 一 步 是 识别 数据 中 的 缺失 值 ， 包 括 哪 些 字 段 有 缺失 
值 ， 不 同 字 段 缺失 值 的 比例 是 多 少 。 然 后 需要 对 缺失 值 进行 处 理 ， 处 理 方 式 
有 很 多 种 ， 包 括 : 直接 删除 包 舍 缺失 仁 的 行 ， 这 种 处 理 方法 的 前 提 是 缺失 值 
的 占 比 不 能 太 高 ;对 缺失 值 进行 填补 ， 填 补 方式 也 有 很 多 种 ， 如 用 均值 进行 
填补 、 用 插 信 的 方式 进行 填补 ， 还 可 以 用 回归 、 聚 关 、 雇 策 树 等 方法 进行 填补 。 

R 提供 了 很 多 处 理 缺 失 值 的 工具 ， 下 列 这 些 包 都 可 以 用 于 解决 缺 失 值 
问题 。 

C) VIM: 提供 了 一 系列 的 缺失 值 的 可 视 化 方法 及 缺失 值 的 填补 方法 。 

(2) naniar: 提供 了 更 加 高 效 的 汇总 与 处 理 RR 缺失 值 的 方法 。 

(3) missMDA: 提供 了 多 变量 的 缺失 值 处 理 方 法 。 

(4) Amelia: 提供 了 bootstrap+EM 算法 处 理 缺 失信 。 

(5) mice: 提供 了 多 种 对 缺失 值 进 行 填补 的 方法 ， 如 回归 树 、 随 机 森林 、 
Xe t BH. 

(6) missForest: 提供 了 一 种 使 用 随机 森林 填补 缺失 值 的 方法 。 

这 些 包 都 可 以 用 来 处 理 缺 失 值 。 处 理 缺 失 值 的 基本 思路 是 ， 首 先 需要 了 
解数 据 中 缺失 值 的 情况 ， 然 后 选择 合适 的 方法 对 缺失 值 进行 处 理 。 
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本 节 主 要 介绍 VIM 包 ， 使 用 VIM 包 对 数据 的 缺失 值 进 行 可 视 化 ， 然 后 进行 填补 。 用 
到 的 数据 来 自 VIM 包 ， 叫 作 sleep 数据 集 ， 这 个 数据 集 一 共有 262 个 观测 值 、9 个 特征 ， 
获取 方式 如 下 : 


# install.packages("VIM") 如 果 电 脑 没 有 安装 VIM 包 ， 则 需要 先 安 闫 
library (VIM) 

data (sleep) 

head(sleep,n = 3) 


gd BodyWgt BrainWgt NonD Dream Sleep Span Gest Pred Exp Danger 
## 1 6654.000 Eun NA NA 3.3 38.6 645 3 5 3 
## 2 1.000 6.6 6.3 2 Bis d ds 42 3 1 ES 
## 3 SEE 44.5 NA NA 12.5 14.0 60 jJ i 1 


3.1.1. SEHE BIS TESUVT 


ERP, HRA- REA NA 的 形 却 出 现 的 ， 并 且 可 以 通过 is.na 判断 问 量 中 赴任 包含 
缺失 值 : 


tmp < ell AST 
is.na(tmp) 
## [1] FALSE FALSE TRUE FALSE 


这 里 生成 了 一 个 同 量 tmp， 问 量 中 的 第 三 个 元 素 是 缺失 值 ， 然 后 通过 is.na( ) 函数 进行 
检验 。 从 结果 中 可 以 友 现 ， 在 is.na( ) 返回 的 结 采 中 ， 第 三 个 元 聂 的 值 古 TRUE， 表明 原 数 
扬中 的 第 三 个 元 素 为 NA.， 

同样 可 以 使 用 is.na( ) 来 检测 数据 框 中 是 否 存 在 缺失 值 ， 这 个 函数 会 对 数据 框 中 的 所 有 
JUR XETI 74 BT: 

head(is.na(sleep),n = 3) 

## BodyWgt BrainWgt  NonD Dream Sleep Span Gest Pred Exp Danger 

## [1,] FALSE FALSE TRUE TRUE FALSE FALSE FALSE FALSE FALSE FALSE 


$4 [2,] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE 
## [3,] FALSE FALSE TRUE TRUE FALSE FALSE FALSE FALSE FALSE FALSE 


如 果 想 知道 有 多 少 行 数 据 是 完整 的 ， 可 以 使 用 complete.cases( ) EE ZA. ix ER C F 
断 每 一 行 是 售 存 在 缺失 值 ， 如 条 茶 一 行人 存在 缺失 什 ， 则 其 返回 FALSE， 人 否则 返回 TRUE. 
sleep 数据 集 一 共有 262 个 观测 值 、9 个 特征 ， 通 过 complete.cases( ) 函数 可 以 查看 有 多 少 行 
的 数据 疫 有 缺失 值 : 
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sum((complete.cases(sleep))) 
$4 [1] 42 


从 结果 中 可 以 发 现 ， 有 42 行 的 数据 是 不 包含 缺失 值 的 。 


3.1.2 ”缺失 值 的 可 钢化 展示 


对 缺失 值 的 可 视 化 展示 可 以 更 好 地 帮助 我 们 去 了 解数 据 的 缺失 情况 ， 包 括 数 据 的 整体 
缺失 情况 、 数 据 中 不 同 特征 的 缺失 情况 。 可 以 使 用 VIM 包 的 aggr( ) 函数 对 数据 集 进 行 可 视 
化 展示 ， 如 图 3.1 所 示 。 


a <- aggr (sleep) 

a 

## Missings in variables: 
## Variable Count 

## NonD 14 


zs Dream 12 
Tg Sleep 4 
LE Span 4 
## Gest 4 
S S OE CARRI 
e 
c | 
I RORI 
=i 
: | 
EC JB 
e € I I 
i “T 
= Imi 
s MEN HHHH 
a 
pon E 9c oos mDoQtEocuoog 
copate cCo9pgEo9 
$29 EI Ua 3 $29 PEU S 
op A à Ei: a 
mm cien 
(a) (b) 


3.1 数据 缺失 情况 ( 1 ) 


=>- „jr J 4r 一 | 一 
, LEE eB 三 o SPA bH ie 
i e 3 tH AJ 


图 3.1 Ca) 展示 了 每 一 个 特征 的 缺失 值 比例 ， 可 以 看 到 ， 每 一 个 特征 的 缺失 值 比例 是 
不 一 样 的 。 图 3.1 Cbo 不 仅 显 示 了 数据 中 每 一 个 特征 的 缺失 值 情况 ， 而 且 显 示 了 数据 中 
缺失 全 的 分 布 情况 ， 可 以 看 到 ， 有 一 些 特征 的 缺失 值 比较 集中 ， 如 Sleep， 有 一 些 特 征 的 
缺失 值 比 较 分 散 ， 如 NonD. 

aggr( ) 函数 返回 了 一 个 结果 ， 返 回 的 结果 给 出 了 每 一 个 变量 缺失 值 的 具体 情况 。 通 过 
这 样 的 方式 ， 可 以 对 整个 数据 集 的 缺失 值 有 一 个 整体 的 了 解 。 

对 数据 集 整体 的 缺失 值 情 况 有 一 定 的 了 解 之 后 ， 需 要 了 解 不 同 变量 之 间 的 缺失 值 是 
否 存在 某 些 关系 。 假 设 有 两 个 字段 一 一 age 和 gender， 其 中 age 存在 缺失 值 。 通 过 age 和 
gender 的 缺失 值 分 析 ， 可 能 存在 的 情况 是 只 有 男性 的 age 存在 缺失 值 ， 女 性 的 不 存在 。 那 么 ， 
这 束 是 一 个 很 有 意思 的 绪论 ， 可 以 帮助 我 们 进一步 去 了 解 缺 失 值 产生 的 原因 。 

可 以 通过 barMiss 去 分 析 采 一 个 特征 在 另 一 个 特征 不 同 取 值 的 情况 下 的 缺失 值 情况 ， 
因此 barMiss 只 能 传递 包含 最 多 两 个 特征 的 数据 集 。 下 面 的 代码 首先 选取 了 sleep 数据 集中 
的 Exp 和 Sleep 两 个 特征 ， 然 后 用 barMiss 分 析 Exp 与 Sleep 这 两 个 特征 的 关系 。 数 据 缺 失 
情况 如 图 3.2 Hrs. 


x <- sleep[, c("Exp", "Sleep")] 4 选取 两 个 特征 
barMiss(x) f 


15 20 25 
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5 


Sleep 特征 的 缺失 值 情 况 


0 


_ me 


Exp 
图 3.2 ”数据 缺失 情况 (2) 
Exp 一 共有 5 个 取 值 ， 即 1 到 5。 从 图 3.2 中 可 以 看 到 ，Sleep 特征 的 缺失 值 只 存在 于 
Exp 取 值 为 1 和 5 时 ， 特 别 是 当 Exp 为 5 时 ，Sleep 有 比较 多 的 缺失 值 。 在 实际 项 目 中 ， 通 


缺失 什 


9 


深入 浅 出 民 语 言 数 据 分 析 


过 这 种 方式 ， 可 以 很 方便 地 了 解 两 个 变量 之 加 的 缺失 值 情况 ， 进 一 步 分 析 产 生 缺 失 值 的 


3.1.3 ”缺失 值 的 处 理 方 法 


对 数据 集 的 缺失 值 情况 有 一 定 的 了 解 之 后 ， 需 要 对 数据 集 的 缺失 值 进 行 处 理 ， 处 理 方 
式 包 括 直接 删除 、 用 统计 量 〈 均 值 、 中 位 数 、 众 数 ) 填补 、 用 模型 的 方法 填补 、 使 用 回归 
模型 填补 、 使 用 KNN 填补 等 。 

1. 直 接 删 除 缺 失 值 

直接 删除 缺失 值 是 最 简便 的 一 种 处 理 缺 失 值 的 方式 ， 可 以 直接 删除 包含 缺失 值 的 行 或 
者 包含 缺失 信 的 列 。 但 并 不 是 所 有 的 情况 都 可 以 采用 这 种 方式 。 下 接 删 除 缺 失 人 需要 满足 
以 下 条 件 。 

e 缺失 值 的 占 比 比较 小 。 

e 删除 缺失 值 之 后 的 数据 集 依 然 是 整体 的 一 个 充分 抽样 。 

第 一 点 的 意思 是 ， 缺 失 值 比较 少 ， 其 删除 不 会 影响 特征 的 分 布 。 第 二 点 的 意思 是 ， 缺 
失 值 在 数据 集中 是 分 散 的 ， 不 是 聚集 起 来 的 。 如 果 缺 失 值 是 聚集 起 来 的 ， 那 么 直接 删除 其 
会 影响 数据 的 分 布 。 之 前 有 一 个 例子 所 到 两 个 字段 一 一 age 和 gender， 通 过 age 和 gender 
的 缺失 值 分 析 ， 可 能 存在 的 情况 是 只 有 男性 的 age 存在 缺失 值 ， 女 性 的 不 存在 。 这 个 时 候 
如 条 直接 删 除 缺 失 值 ， 那 么 男性 样本 陨 会 减少 很 多 ， 则 gender 这 个 特征 的 分 布 吏 会 产生 
变化 。 

当 满 足以 上 两 个 条 件 的 时 候 ， 可 以 直接 删除 缺失 值 。 另 外 ， 对 于 特征 而 言 ， 如 果 某 一 
个 特征 的 缺失 值 占 比 太 噩 〈70% ~ 80%) ， 则 也 可 以 直接 删除 此 特征 。 在 及 中 ， 可 以 直接 
使 用 na.omit( ) 对 数据 集中 的 缺失 值 进行 删除 。 


head (anyNA(na.omit(sleep))) 
$$ [1] FALSE 

anyNA (na.omit (sleep) 

) 

## [1] FALSE 
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2. 使 用 均值 、 中 位 数 填 补缺 失 值 

男 一 种 处 理 缺 失 值 最 直观 的 方式 就 是 使 用 均值 与 中 位 数 填 补缺 失 值 。 使 用 均值 和 中 位 
数 填补 缺失 值 是 一 种 非常 容 多 理解 的 方式 。 这 种 方式 非常 简单 ， 并 且 在 东 些 情况 下 填补 效 
果 也 很 不 错 。 在 有 些 情况 使 用 均值 填补 缺失 值 可 能 不 是 很 合适 , 例如， 数据 的 范围 非常 大 ， 
这 个 时 候 吏 并 不 是 很 适合 使 用 均值 填补 缺失 但 。 

在 及 中 可 以 百 接 用 数据 的 均值 、 中 位 数 百 接 痊 换 反 缺失 值 ; 也 可 以 使 用 naniar 包 中 的 
impute mean all( ) 或 者 impute median all( ) 用 于 对 数据 集 进行 填补 ， 直 接 将 需要 填补 的 数 
据 集 传 入 impute mean all( ) 或 者 impute median all( )， 其 返回 结果 耽 是 处 理 完 缺失 值 的 数 
据 集 。 下 面 的 代码 是 对 sleep 数据 集 进行 缺失 值 填补 。 


library (naniar) 
impute mean all(sleep)  $»5$ head(3) 


T4 BodyWgt BrainWgt NonD Dream Sleep Span Gest Pred Exp Danger 
## 1 6654.000 i Be GTZ ITZ 3.3 35.6 G45 3 s 3 
## 2 1.000 EE e D000 2 8.3 4.5 42 3 il 3 
#3 da dB 44.5 8.672917 1.972 12.5 14.0 60 1 il i 


any na(impute mean all(sleep)) 
$$ [1] FALSE 
impute median all(sleep) $»* head(3) 


zn BodyWgt BrainWgt NonD Dream Sleep Span Gest Pred Exp Danger 
## 1 6654.000 i SH S E 3.3 38.6 645 3 3 3 
## 2 1000 6.6 6.30 2.0 8.3 4.5 42 3 1L 3 
$4 3 3389 44.5 8.35 ln 12:9 DIU 60 1 T 下 


any na(impute median all(sleep)) 
## [1] FALSE 


3. 使 用 KNN 填补 缺失 值 

使 用 KNN 填补 缺失 信 的 基本 中 想 证 ， 对 于 每 一 个 存在 缺失 值 的 行 ， 去 寻找 与 这 一 行 最 
相似 的 天 行 ， 然 后 取 这 天 行 数据 的 平均 值 或 者 加 权 平 均值 对 缺失 的 数据 进行 填补 。VIM 包 
提供 了 KNN 的 缺失 值 的 处 理 方 法 ，KNN( ) 函数 的 使 用 方式 很 简单 ， 只 需要 将 需要 处 理 的 
数据 集 传 入 KNN( ) 函数 ， 返 回 的 结 琳 古 使 用 天 均值 填补 缺失 值 之 后 的 数据 集 。 


library (VIM) 

KNN (sleep) $»$ head(3) 

#F BodyWgt BrainWgt NonD Dream Sleep Span Gest Pred Exp Danger BodyWgt imp 
## 1 6654.000 5712.0 Ho US 3.3 38.6 645 3 5 3 FALSE 

## 2 1.000 6.6 nog cwn dog 4.5 42 3 1 3 FALSE 
## 3 3.385 44.5 12.8 2.4 2 14.0 60 1 1 1 FALSE 

## BrainWgt imp NonD imp Dream imp Sleep imp Span imp Gest imp Pred imp 
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## 1 FALSE TRUE TRUE FALSE FALSE FALSE FALSE 
$4 2 FALSE FALSE FALSE FALSE FALSE FALSE FALSE 
$4 3 FALSE IRUE TRUE FALSE FALSE FALSE FALSE 
## Exp imp Danger imp 
## 1 FALSE FALSE 
## 2 FALSE FALSE 
## 3 FALSE FALSE 


KNN 算法 的 优点 很 多 ， 其 基于 数据 之 间 的 相似 性 ， 使 用 相似 的 数据 值 填 补缺 失 值 ， 这 
样 的 做 法 比 下 接 用 均值 或 者 中 位 数 进行 填补 更 加 合理 、 人 准确 。 使 用 KNN 填补 缺失 值 ， 不 仪 
可 以 对 数值 型 的 变量 进行 填补 ， 而 且 可 以 对 离散 型 数据 进行 填补 。KNN 算法 的 关键 点 之 一 
是 选择 合适 的 距离 计算 方法 , 这 里 可 以 使 用 3 种 距离 ， 即 欧 氏 距离 〈euclidean) 、 曼 哈 顿 距 
A (manhattan) 和 gower 距离 。 

需要 注意 的 是 ， 欧 氏 距 离 和 曼哈顿 距离 主要 计算 连续 变量 之 间 的 距离 ， 如 果 数 据 包 合 
离散 变量 ， 或 者 既 包 含 连 续 变 量 又 包含 离散 变量 ， 就 需要 使 用 gower 距离 。 

4. 使 用 回归 模型 填补 缺失 值 

使 用 回归 模型 填补 缺失 值 是 基于 数据 之 间 的 相关 性 的 ， 如 果 数 据 之 间 没 有 关系 ， 那 么 
无 法 使 用 回归 模型 填补 缺失 值 。 利 用 回归 模型 填 促 缺失 值 站 先 要 建 并 以 缺失 值 为 因 变 量 的 
回归 模型 ， 构 建 好 回归 模型 之 后 ， 利 用 有 缺失 值 的 数据 的 自 变 量 进行 预 出 ， 将 预测 的 结果 
填补 为 缺失 值 。 这 里 使 用 regressionImp( ) HITARAR HA 第 一 个 参数 征 回归 模型 的 公 陈 ， 
左边 是 回归 模型 的 因 变 量 ， 右 边 是 回归 模型 的 日 变量 (通过 “~” 隔 开 ) ， 其 中 因 变 量 是 
缺失 值 需要 处 理 的 特征 ;第 二 个 参数 是 需要 处 理 的 数据 集 。 需 要 注意 的 是 ， 与 Im( ) 函数 构 
建 回归 模型 不 同 的 是 ，regressionImp( ) 函数 中 模型 公式 的 左边 可 以 包 售 多 个 因 变 量 ， 这 时 
会 对 每 个 因 变 量 建 并 回归 模型 填 梓 缺失 值 。 


sleepImp2 <- regressionImp(Sleep-tGest-SpantDreamtNonD-BodyWgt-t-BrainWgt, 
data-sleep) 
head(sleepImp2,n - 3) 


"gd BodyWgt BrainWgt NonD Dream Sleep Span Gest Pred Exp Danger 
## 1 6654.000 5712.0 -11.732867 -0.6897314 3.3 38.6 645 3 5 ES 
## 2 1.000 6.6 B 300000 S E OU 8.3 4.5 42 3 il 3 
## 3 3.385 44.5 aag Tona 3129 Ic 60 1 i T 
## Sleep_imp Gest_imp Span_imp Dream imp NonD imp 

## 1 FALSE FALSE FALSE TRUE TRUE 

## 2 FALSE FALSE FALSE FALSE FALSE 

## 3 FALSE FALSE FALSE TRUE TRUE 


使 用 regressionImp( ) 填补 缺失 值 ， 函 数 的 第 一 个 参数 是 回归 模型 的 参数 ，~ 左边 是 需 
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要 填补 的 特征 ， 右 边 是 用 于 建立 回归 模型 的 特征 。 如 果 数 据 中 的 缺失 值 比较 多 ， 则 可 以 使 
用 robust 回归 ， 能 够 有 更 好 的 效果 ， 使 用 robust 回归 的 方式 是 在 函数 中 添加 一 个 参数 ， 即 
robust--TRUE. 


SleepImp3 <- regressionImp(Sleep-Gest-Spanc*Dream-tNonD-BodyWgt-BrainWgt, 
data-sleep,robust - TRUE) 
head(sleepImp3,n = 3) 


## BodyWgt BrainWgt NonD Dream Sleep Span Gest Pred Exp Danger 

tr eb opos xS 88049531 =>- Ta Ey ind pia CE. 3 

## 2 1.000 6.6 6.300000 2.000000 8.3 4.5 42 3 1 3 
H 3 3.385 44.5 3.263638 1.869753 12.53 14.0 60 il il l 
## Sleep imp Gest imp Span imp Dream imp NonD imp 

## 1 FALSE FALSE FALSE TRUE TRUE 

## 2 FALSE FALSE FALSE FALSE FALSE 

## 3 FALSE FALSE FALSE TRUE TRUE 

5. 使 用 随机 森林 模型 填补 缺失 值 


随机 森林 模型 是 集成 机 器 学 习 模 型 ， 通 过 许多 决策 树 共同 构成 。 随 机 森林 处 理 缺 失 值 
的 原理 是 ， 诈 先 给 缺失 值 预先 设 定 一 下 ， 连 续 变 量 用 均值 或 者 中 位 数 预 设 ， 离 散 的 特征 使 
用 众 数 预 设 ， 然 后 使 用 所 有 数据 构建 随机 森林 模型 ， 这 时 会 记录 每 一 组 数据 在 决 倘 树 中 每 
一 步 的 分 闫 路径 ， 进 而 判断 哪 一 组 数据 与 缺失 值 的 分 类 路 径 最 接近 。 通 过 这 种 方 陈 构建 了 
数据 之 间 的 相似 度 ， 然 后 根据 相似 度 ， 对 连续 数据 使 用 加 权 平 均 的 方式 填补 缺失 值 ， 对 离 
衣 变 量 使 用 加 权 投 票 的 方式 填补 缺失 值 。 

恕 而 言 之 ， 其 本 质 上 也 十 寻找 相似 的 数据 ， 用 相似 的 数据 来 需 补 缺失 值 。 下 面 使 用 随 
机 森林 模型 对 缺失 值 进 行 填补 ， 使 用 的 是 mice 包 中 的 mice( ) 函数 ， 函 数 的 第 一 个 参数 是 
需要 处 理 的 数据 集 ， 第 二 个 参数 method 是 缺失 值 填补 的 方法 ， 如 果 指 定 其 为 ff， 则 表示 使 
用 随机 和 森林 进行 缺失 值 填补 。 


library (mice) 
## Loading required package: lattice 


## Attaching package: 'mice' 
## The following objects are masked from 'package:base': 


Uu 
## cbind, rbind 
rf <- mice(sleep,method = "rf",printFlag=F) 


complete (rf) $»5$ head (n=3) 
Td BodyWgt BrainWgt NonD Dream Sleep Span Gest Pred Exp Danger 
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## 1 6654.000 JUS te L8 3-3 38.6 6453 3 2 3 
## 2 1.000 "oce. zu 8.3 4.3D 42 3 1 3 
## 3 DS 44.5 10.4 zd 2. uz 60 il l1 i 


这 里 指定 了 人 缺失 值 的 填补 的 方法 Cmethod) 为 rf， 意 味 看 指定 使 用 随机 森林 模型 进行 
填补 。mice 包 用 于 填补 缺失 值 的 方法 还 有 很 多 ， 例 如 : 
ppm 预测 均值 匹配 。 
midastouch 市 权 的 预测 均值 匹配 。 
sample 一 一 随机 抽样 填补 。 
cart 一 一 使 用 分 类 树 和 回归 树 填 补缺 失 值 。 
mean 一 一 使 用 均值 填补 缺失 值 。 
norm- 一 一 使 用 贝 叶 斯 线性 模型 填补 缺失 值 。 
norm.nob 一 一 使 用 忽略 模型 误差 的 回归 模型 填补 缺失 值 。 
使 用 回归 模型 填补 缺失 值 。 
quadratic 一 一 使 用 二 次 项 填补 缺失 值 
logreg 一 一 使 用 逻辑 回归 填补 缺失 值 。 
logreg.boot 一 一 使 用 bootstrap 人 逻辑 回归 填补 缺失 值 。 
polyreg- 一 一 使 用 多 项 式 模 型 填补 缺失 值 。 
lad 一 一 使 用 线性 判别 模型 填补 缺失 值 。 

需要 使 用 某 方法 ， 只 需要 在 模型 中 改变 相应 的 method 即 可 。 需 要 注意 的 一 点 是 ， 
有 些 缺 失 值 的 填补 方法 只 能 应 用 于 连续 变量 ， 如 mean; 有 些 则 只 能 应 用 于 分 类 变量 ， 如 
logreg. 

6. 基 于 降 维 的 缺失 值 处 理 方法 

在 R 中 ， 使 用 降 维 的 方法 可 以 非常 高 效 地 对 缺失 数据 进行 处 理 ，missMDA 包 可 以 对 连 
续 变 量 、 离 散 变 量 和 混合 变量 进行 缺失 值 的 处 理 。 

对 连续 杰 量 的 数据 处 理 的 基本 过 程 是 ， 首 先 建立 舍 有 缺失 值 的 PCA 模型， 确定 好 主 成 
分 的 数量 ， 然 后 通过 构建 好 的 主 成 分 模型 进行 插值 。 

一 般 而 言 ， 使 用 多 重 对 应 分 析 (MCA) 方法 处 理 分 类 变量 数据 ， 使 用 混合 数据 因子 分 
析 CFAMDO 方法 处 理 意 合 变量 的 数据 。 衣 先进 行 主 成 分 分 析 ， 使 用 estim ncpPCA( ) 函数 
对 数据 进行 主 成 分 分 析 ， 获 取 最 优 的 主 成 分 个 数 。 


norm.boot bootstrap 
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library (missMDA) 

library (FactoMinekh) 

nb «- estim ncpPCA(sleep,method.cv = "Kfold", verbose = FALSE) 
nbsncp 

wu ps 


这 里 通过 市 缺失 值 的 主 成 分 分 析 ， 可 知 需 要 选取 5 个 主 成 分 ， 然 后 进行 插值 : 


res.comp <- imputePCA(sleep, ncp = nb$ncp) # iterativePCA algorithm 
res.compS$completeObs 5>5 head(3) 


## BodyWgt BrainWgt NonD Dream Sleep Span Gest Pred Exp Danger 
## [1,] 6654.000 5712.0 -2.946424 8.119706 3.3 38.6 645 3 2) 3 
## [2,] 1.000 6.6 6.300000 2.000000 dud A.D 42 3 il d 
## [3,] 3.385 44.5 9.741947 3.087066 12.5 14.0 60 1l 1 i 


这 样 ， 束 完成 了 数据 壤 补 。 到 这 里 ， 本 市 介绍 了 缺失 值 的 数据 探 过 方法、 可视化 的 方 


3.2 S 帅 tB 


法 及 缺失 值 的 填补 方法 。 缺 失 值 的 处 理 是 数据 探索 过 程 中 的 一 个 非常 重要 的 环节 ， 接 下 来 
介绍 数据 探 条 的 其 他 部 分 。 


弄 常 值 对 模型 有 非常 重要 的 影响 ， 因 为 其 会 极 大 地 改变 模型 的 拟 合 和 预测 。 因 此 ， 处 


理 异 常 值 是 为 了 能 够 拟 合 一 个 更 加 真实 的 模型 。 为 了 更 加 清晰 地 理解 异常 值 的 含义 ， 这 里 
举 一 个 简单 的 例子 ， 用 于 说 明 缺 失 值 是 如 何 影 啊 模 型 的 ， 使 用 到 的 数据 集 是 及 目 市 的 cars 
数据 集 。 


让 先生 成 一 个 市 有 异 沼 值 的 数据 集 ， 然 后 进行 纵 图 ， 选 取 cars 数据 集 的 前 30 条 数据 ， 


然后 随机 添加 一 些 数据 作为 异 沼 数据 ， 如 图 3.3 所 示 。 


require (ggplot2) 


2 


= o{186; 190;210;220) 
P- gogploti data E cars outlier acs (2 Speed y cs disti) tgeam Parinti) 


ptgeom smooth (method = "1Im")+xlim(0,28)+ylim(1,230) 
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速度 
图 3.3 异 芝 值 的 回归 模型 
KEERAS cars 数据 集 的 前 30 条 数据 ， 然 后 添加 了 4 DEER RAAR, i 
后 拟 合 一 条 线性 曲线 。 观 察 图 3.3 可 以 有 发现 ， 拟 合 的 线性 模型 因为 民利 值 的 存在 ， 曲 线 的 
角 肛 仿 上 回 上 方 。 接 下 来 绘制 没有 添加 弄 昭 值 的 秘 扣 图 ， 如 图 3.4 所 示 。 


carsl <- cars[1:30,] 
p <- ggplot (data = carsl,aes(x- speed,y = dist))-tgeom point () 
ptgeom smooth (method = "lm")-Txlim(0,28)-*ylim(1,230) 


观察 图 3.3 和 图 3.4， 比 较 去 除 异 常 值 之 后 两 者 斜率 的 变化 ， 之 前 训练 的 模型 斜率 
比较 大 ， 这 是 因为 模型 受到 了 异常 值 的 影响 。 异 常 值 的 识别 方法 有 很 多 ， 下 面 对 异 党 
值 进行 简单 的 介绍 。 


EJ 


第 .了 oc Gmel 


速度 
图 3.4 无 异常 值 的 回归 模型 


1. 单 变量 的 异常 值 识别 

异 单 值 的 识别 有 很 多 方法 ， 最 第 见 的 一 种 是 使 用 三 们 标准 莽 原 则 。 三 倍 标准 差 原 则 指 
的 是 ， 如 条 数据 服从 正 态 分 布 ， 那 么 数据 中 在 均值 的 三 倍 标准 差 之 外 的 数据 则 可 能 是 民利 
E. 但 是 ， 数 据 不 一 定 满足 正 态 分 布 ， 因 此 这 个 判断 标准 不 一 定 合适 。 男 一 个 判断 标准 是 ， 
均值 +1.5IQR 至 均值 -1.5IQR 这 个 范围 之 外 的 数据 为 异常 值 ，IQR 指 的 是 四 分 位 数 间距 ， 
具体 为 75 分 位 数 与 25 分 位 数 之 间 的 距离 。 这 里 生成 一 个 向 量 ， 取 值 1 一 100， 然 后 添加 
一 个 异常 值 200 。 使 用 boxplot stats( ) 函数 识别 异常 值 ， 并 使 用 boxplot( ) 函数 绘制 箱 线 图 。 
如 图 3.5 所 示 ， 洲 离 在 箱 线 之 外 的 是 录音 全。 


ntData SEU 
arere se ee e 9 ee e aes lun ela ou euler oes 


outlier values 


t* [1] 200 
boxplot(inputData, main-"Pressure Height", boxwex-0.1) 
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3.5 AA 
从 输出 结果 可 以 看 到 ， 其 已 经 识别 出 200 Z3 B. 
2. 多 变量 的 模型 方法 
使 用 某 单一 的 标准 来 划分 异常 值 ， 可 能 会 市 来 一 些 问 题 。 对 于 回归 问题 ， 可 以 使 用 
cook 距离 来 分 析 异 常 值 ，cook 距离 是 针对 回归 模型 计算 的 上 度量， 其 表示 数据 对 预测 结果 的 
SAU]. cook 距离 的 公式 如 下 : 


Yr. 2 ) 


um pxMSE 
式 中 ， 闻 是 第 /条 数据 的 预测 ， 包 含 这 个 模型 中 的 所 有 数据 ， 立 ， 是 第 /条 数据 的 


预测 ， 这 个 时 候 模 型 中 不 包含 第 i 条 数据 MSE 是 模型 的 均 方 误差 ; p 是 回归 模型 中 
的 系数 个 数 。 

这 里 用 到 的 数据 集 是 R É HH mycars 数据 集 ， 首 先 使 用 Im( ) 构建 回归 模型 ， 因 变量 
为 mpg。 构 建 好 模型 之 后 ， 使 用 cooks.distance( ) 计算 模型 的 cook 距离 。 


l <- lm(mpg~.,data = mtcars) 

cooksd <- cooks.distance(l) 

head(cooksd, 3) 

Td Mazda RX4 Mazda RX4 Wag Datsun 710 
LE 0.020590976 0g. 009218355 O USSE: 
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一 般 而 言 ，cook 距离 大 于 平均 值 的 4 倍 ， 可 能 航 归 关 为 异 利 值 ， 如 图 3.6 所 不 。 


plot (cooksd, pch="*", cex-2, main-"Influential Obs by cooks distance") 

# 绘制 cook 距 离 

abline(h = 4*mean (cooksd, na.rm-T), col="red") # 添加 分 界线 
text(x-l:length(cooksd)-*1, y-cooksd, labels-ifelse(cooksd»4*mean(cook 
sd, na.rm-T),names(cooksd),""), col-*"red") # 添加 标签 


cook 距离 对 数据 的 影响 
pe 
e 
三 Y 
uoo Mec 230 
= 
o 
o 
> CN 
e 
* * kk 
O ** ak kr kk kk k k ee x 


0 5 10 15 20 25 30 
指标 
图 3.6 cook 距离 图 
现在 找 出 那些 有 问题 的 行 。 
influential <- (names(cooksd)[(cooksd > 4*mean(cooksd, na.rm-T))]) # 


influential row numbers 
head(mtcars[influential, ]) 


Lx; mpg cyl disp hp drat wt qsec vs am gear carb 
## Merc 230 22.8 4 LADLE C; ME ec | MEE ec 22 0 0 4 
## Ford Pantera L 15.8 8 sioa oS a a s s) 1 E 4 


结合 原始 数据 集 的 分 布 情况 ， 可 以 及 现 ， 第 一 条 数据 的 qsec 在 数据 集中 是 最 大 值 。 第 
二 条 数据 的 cyl ANA NT. 
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另外 ，car 包 中 的 outlierTest 可 以 从 模型 中 直接 给 出 异常 值 结果 : 


car::outlierTest(l) 

## No Studentized residuals with Bonferonni p < 0.05 

$14 Largest |rstudent|: 

Td rstudent unadjusted p-value Bonferonni p 
14 Ford Pantera L -2.164273 0.042719 NA 


结果 指出 ，Ford Pantera L 这 一 行为 异常 值 。 


3.3 dlookr 数 据 处 理 包 


dlookr 提供 了 一 系列 的 数据 诊断 方法 ， 并 能 够 目 动 生成 数据 诊断 报告 ， 可 以 对 数据 进 


行 探索 性 分 析 ， 并 对 异常 值 与 缺失 值 进行 处 理 ， 进 行 数据 转换 。 


dlookr 包 第 用 的 诊断 函数 有 以 下 5 个。 

diagnose( ): 提供 变量 的 基本 诊断 信息 。 

diagnose_category( ): 提供 分 类 变量 的 评 细 诊断 信息 。 
diagnose_numeric( ): 提供 数值 变量 的 详细 诊断 信息 。 

diagnose outlier( ) 和 plot outlier( ): 提供 对 红利 人 的 诊断 与 可 视 化 。 
diagnose report( ): 生成 数据 诊断 报告 。 


33.] 所 有 变量 的 一 般 性 诊断 


使 用 diagnose( ) 函数 可 以 对 一 个 数据 集 的 所 有 特征 进行 基础 诊断 。 这 里 以 nycflights13 


EPH flights 数据 集 为 例 ， 这 个 数据 集 折 述 了 2013 年 从 纽约 起 飞 的 航班 数据 。 疾 先 对 这 个 
数据 集 的 所 有 数据 进行 一 般 性 诊断 ， 将 数据 传 入 diagnose( ) 函数 ， 即 可 生成 所 有 数据 的 一 
般 性 诊断 结果 。 
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library (dlookr) 

$14 Warning in fun(libname, pkgname): couldn't connect to display ":0" 
Td 

## Attaching package: 'dlookr' 

## The following object is masked from 'package:base': 

## 


第 .了 s RUE 


UE transform 

library (nycflights13) 

diagnose (flights) %>% head(3) 

## # A tibble: 3 x 6 

## variables types missing count missing percent unique count unique rate 


T «chr» «chr» «int» «dbl» «int» «dbl» 

$4 1 year integer 0 0 l 0. 00000297 
## 2 month integer 0 0 12 0.0000356 
$4 3 day integer 0 0 3l 0.0000920 


A Z8RHBRIEUR SI, 输出 内 容 包 括 变 量 的 名 称 、 变 量 的 数据 类 型 、 变 量 的 缺失 值 计 数 、 
变量 的 缺失 比例 、 变 量 中 唯一 值 的 计数 、 变 量 中 唯一 值 的 占 比 。 通 过 从 这 个 结果 ， 我 们 对 
数据 有 了 一 个 初步 的 了 解 。 


332 ”数值 型 变量 的 诊断 


使 用 diagnose numeric( ) 对 数值 型 变量 进行 诊断 ， 可 以 得 出 更 多 的 信息 。 如 果 在 调用 
diagnose numeric( ) 函数 的 时 候 ， 数 据 集 中 依然 有 分 类 变量 ， 这 个 冰 数 会 忽略 分 类 变量 ， 
只 对 数值 型 变量 进行 分 机 。 对 数值 型 变量 进行 诊断 的 方法 很 简单 ， 将 数 人 型 数据 集 传 入 
diagnose numeric( ) 水 数 即 可 生成 分 析 结 果 。 


diagnose numeric(flights) $>% head(3) 

4$ # A tibble: 3 x 10 

44 variables min Q1 mean median Q3 max zero minus outlier 

## <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> «int» <int> <int> 


TT 1 year 2013 2013 2013 2013 2013 2013 0 0 0 
$4 2 month 1 ^ sess N, 10 Ta 0 0 0 
## 3 day ill 8 Iis NS TG 31 0 0 0 


从 结 采 中 可 以 及 现 ， 输 出 内 容 包括 变量 名 称 、 变 量 的 最 小 值 、 变 量 的 25% 分 位 数 、 变 
量 的 平均 值 、 变 量 的 75% 分 位 数 、 变 量 的 最 大 值 、 变 量 中 0 的 计数 、 变 量 中 最 小 值 的 计数 、 
变量 中 弄 音 值 的 数量 。 这 样 ， 可 以 对 数值 型 变量 的 信息 有 一 个 比较 全 和 面 的 了 解 。 


3.3.3 ”分 类 变量 的 诊断 


diagnose category( ) 函数 可 对 分 类 变量 进行 数据 诊断 ， 从 这 个 函数 中 可 以 得 出 分 类 变量 
的 详细 分 析 结 果 ， 同 样 ， 数 据 集 中 的 数值 型 变量 则 会 忽略 挥 。 
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diagnose category (ilights) %2% head'( 3) 
# A tibble: 3 x 6 


iE 
UE 
ui 
Fg 
uk 
i 


Ji 
E 
3 


variables levels N freq ratio rank 
<hr> <chr> sints coms 
carrier UA 336776 58665 17.4 1 
carrier B6 336776 54635 16.2 2 
carrier EV 336776 54173 16.1 3 


从 数据 结果 中 可 以 看 出 ， 输 出 内 容 包 括 变 量 名 字 、 分 类 变量 中 的 每 一 个 类 别 、 变 量 的 
计数 、 某 一 个 分 类 类 别 的 计数 、 此 类 别 的 占 比 及 变量 类 别 的 排名 。 从 这 里 可 以 得 出 分 类 变 
量 的 详细 信息 。 


3.3.4. 异 贡 全 的 诊断 


diagnose outlier( ) 提供 了 异常 值 诊断 方法 ，plot_ outlier( ) 用 于 异常 值 的 可 视 化 。 


diagnose outlier(flights) $>$ tail(3) 
## # A tibble: 3x 6 


ub 
## 
T3 
T4 
## 
FF 


1 
2 
3 
# 


Te ee ee 


«chr» <int> <dbl> «dbl» <dbl> 
distance ys dea Es 4955. 1040. 
hour 0 0 NaN Ne 
minute 0 0 NaN zT 


' with 1 more variable: without mean «dbl» 


从 数据 结果 中 可 以 看 出 ， 输 出 内 容 包 括 变 量 名 、 异 常 值 的 数量 、 异 常 值 的 占 比 、 异 常 
值 的 平均 值 、 所 有 数据 的 平均 值 、 吻 除了 异常 值 的 平均 值 。 

plot outlier( ) 用 于 对 异常 值 进行 可 视 化 ， 调 用 此 函数 需要 传递 一 个 数据 集 ， 以 及 需要 
寞 癌 值 诊断 的 变量 。 寞 肖 值 可 视 化 结果 如 图 3.7 所 示 。 


vi gerer lat OET da Hes aneseaneel 
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0 20000 50000 


0 2000 4000 
不 包含 异常 值 


不 包含 异常 值 


一 一 


0 20000 50000 


B] 3.7 异 弟 值 可 视 化 结果 
这 幅 图 包含 4 个 子 图 ， 左 上 那 幅 子 图 是 包含 有 异常 值 的 箱 线 图 右上 那 幅 子 图 是 融 有 天 
痕 值 的 直方 图 。 下 面 两 幅 子 图 分 别 是 不 带 异 常 值 的 箱 线 图 和 不 市 异常 值 的 直方 图 。 观 察 
图 3.7， 这 里 分 别 给 出 了 包含 寞 前 值 的 箱 线 图 与 卫 方 图 、 不 包含 弄 音 值 的 箱 线 图 与 且 方 图 。 
如 果 不 指 定 对 菏 一 个 变量 进行 异常 值 可 视 化 ， 则 只 需要 传递 一 个 数据 集 即 可 ， 函 数 会 绘制 
所 有 变量 的 图 形 。 


33.5 ”创建 诊断 报告 


diagnose report( ) 函数 可 以 对 数据 集 生 成 一 个 诊断 报告 ， 报 告 可 以 以 PDF, 或 者 HTML 
的 形式 展 出 。 通 过 这 个 函数 ， 我 们 可 以 快速 地 了 解数 据 。 创 建 PDF 报告 只 需要 在 diagnose_ 
report( ) 中 传 入 一 个 数据 集 即 可 ， 创 建 HTML 格式 的 报告 只 需要 以 下 的 命令 ， 下 面 代码 中 
的 output format 用 于 指定 报告 以 什么 形式 给 出 ， 可 以 是 Word，PDF 或 者 HTML 的 形式 。 
诊断 报告 如 图 3.8 所 示 。 


diagnose report(flights,output format = "html") 
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Data Quality Diagnosis Report 


* 1 Diagnose Data 
o 1.1 Overview of Diagnosis 
= 1.1.1 List of all variables quality 
= 1.1.2 Diagnosis of missing data 
= 1.1.3 Diagnosis of unique data(Text and Category) 
= 1.1.4 Diagnosis of unique data(Numerical) 
o 1.2 Detailed data diagnosis 
= 1.2.1 Diagnosis of categorical variables 
= 1.2.2 Diagnosis of numerical variables 
= 1.2.3 List of numerical diagnosis (zero) 
= 1.24 List of numerical diagnosis (minus) 
* 2 Diagnose Outliers 
o 2.1] Overview of Diaenosis 


图 3.8 诊断 报告 


图 3.8 所 示 为 最 终 创建 出 来 的 报 守 ,包含 的 内 容 非 闸 丰 曙 ， 退 过 这 份 报 告 可 以 对 数据 
集 有 一 个 充分 的 了 解 。 通 过 这 个 报告 ， 可 以 快速 地 对 数据 进行 数据 探索 、 数 据 诊断 ， 并 进 
行 展示 分 盏 。 


3.3.6 ”数据 处 理 


在 对 数据 进行 一 系列 诊断 之 后 ，dlookr 提供 了 一 系列 的 数据 处 理工 具 (包括 缺失 值 、 
异常 值 的 处 理工 具 ) ， 还 提供 了 数据 变换 方法 。dlookr 提供 的 一 系列 数据 处 理沙 数 如 下 。 

e find na(): 可 以 找到 数据 集中 的 缺失 值 ,并 且 可 以 使 用 imputate na 填补 缺失 值 。 

e find outliers( ): 可 以 找到 数据 集中 的 异 第 值 ， 并 且 可 以 使 用 imputate_outlier 填补 异 
常 值 。 

@ summary.imputation( ): 可 以 对 数据 集中 的 数据 填补 情况 进行 统计 ， 使 用 plot. 
imputation 可 以 对 数据 集中 的 数据 填补 情况 进行 可 视 化 。 

e transform( ): 用 于 对 数据 进行 转换 。 

€ binning 和 binning by(): 用 于 对 数据 进行 分 箱 ， 然 后 可 以 使 用 print.bins( ) 和 
summary.bins( ).plot.bins( ): 查看 分 箱 的 结果 并 对 其 进行 可 视 化 。 

e find skewness( ): 用 于 找到 有 偏 的 变量 。 

e transformation report( ): 用 于 生成 数据 处 理 报告 。 


3.3.7 


WA TERRE 


imputate na( ) 用 于 对 缺失 值 进行 处 理 , 同时 文 持 对 数值 型 变量 和 字符 型 变量 进行 处 理 。 
可 用 于 填补 缺失 值 的 方法 很 多 ， 修 改 imputate na( ) 中 的 method 参数 就 可 以 使 用 不 同 的 方 
法 进行 缺失 值 的 填补 ， 下 面 做 一 个 总 结 。 


mean: 使 用 均值 进行 填补 。 
median: 使 用 中 位 数 进 行 填补 。 
mode: 使 用 众 数 进行 填补 。 
knn: 使 用 KK 近邻 进行 填补 。 
rpart: 使 用 决策 树 进 行 填补 。 
mice: 使 用 链 式 方程 进行 填补 。 


其 中 ，mode、rpart、mice 可 以 同时 处 理 数 值 型 变量 与 字符 型 变量 。 需 要 注意 的 是 ， 
rpart 和 mice 需要 指定 目标 变量 ， 并 且 mice 还 需要 指定 随机 种 子 。 这 里 用 到 的 数据 集 是 
VIM 包 中 的 sleep 数据 集 ，inputate na( ) 的 第 一 个 参数 是 需要 处理 的 数据 集 ， 第 二 个 参数 
xvar 是 需要 进行 缺失 值 填 补 的 特征 ， 第 三 个 参数 yvar 是 数据 集中 的 目标 变量 ，method 用 于 
指定 所 使 用 的 方法 。 图 3.9 显示 了 数据 处 理 前 后 的 分 布 。 


library(dlookr) 

output <- imputate na(sleep,xvar = NonD,yvar = Danger,method = "rpart") 
## [1] "imputation" "numeric" 

summary (output) $»$ head(3) 

## * Impute missing values based on Recursive Partitioning and Regression 
Trees 

## - method : rpart 

## 

## * Information of Imputation (before vs after) 

y Original Imputation 

## n 48.0000000 62.0000000 

## na 14.0000000 0.0000000 

## mean 868.6729167 8.6909140 

## sd 3.6664517 323.7300642 

## se mean 0.5292067 0.4737186 

## IQR 4.7500000 6.1000000 

$4 skewness  0.2982486 0.1544946 

## kurtosis -0.2357548 -0.7083672 

$4 poo 2.1000000 2.1000000 

## pOl 2.1000000 2.1000000 
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$4 p05 3.2000000 3 
## Original Imputation 

## n 48.000000 62.000000 

## na 14.000000 0.000000 

## mean 8.672917 8.690914 


plot (output) 


决策 树 的 填补 方法 


0.100 - 


0.075 = 


密度 


特征 名 称 
| | 填补 
[| 原始 


0.050 = 


0.025 ~- 


0.000 - 


图 3.9 缺失 值 填 补 
如 图 3.9 所 示 ， 这 里 使 用 了 决策 树 的 方法 对 sleep 数据 集中 的 NonD 变量 进行 填补 ， 决 
RA HJH IREEN Danger. output 是 数据 集 盾 补 的 结 末 ，summary(outpub 这 一 行 代 人 码 对 原 
始 数 据 与 填补 之 后 的 数据 的 统计 量 进 行 了 一 个 对 比 ，plot(output) 则 对 原始 数据 与 缺失 值 填 
疏 之 后 的 数据 分 布 进 行 了 可 视 化 。 


3.3.8 ”异常 值 处 理 


imputate outlier( ) 用 于 对 异 单 值 进行 检测 ， 其 可 对 异 瘦 值 的 变量 进行 处 理 ， 处 理 方式 
包括 如 下 几 种 。 

€ mean: 用 均值 进行 处 理 。 

@ median: 用 中 位 数 进行 处 理 。 

@ mode: 用 众 数 进 行 处 理 。 


行 填 补 。 


第 .了 齐 


e capping: 将 在 596 分 位 数 与 95% 分 位 数 之 外 的 数据 用 596 分 位 数 和 95% 


分 位 数 进 


这 里 使 用 sleep 数据 集 的 BodyWegt 变量 进行 异常 值 的 处 理 , 处 理 的 方法 是 capping, JF 
向 值 处 理 前 后 数据 的 分 布 如 图 3.10 所 示 。 


icut <- imputate outlier(sleep,BodyWgt,method = 


"capping") 


iout 

ss arg mena d | Se dl 
#[9]3.300 s2 e0 O A25 STR IDEE TEE ED 0.075 

Mr 785 0.200 1.410 60.000 518.2002 7,660 0.120 

## [25]85.000 36.330 0.101 1,040 SPA e gap RUBER 10 S es O 

## [33]0.010 62.000 0.122 1.350 0.023 0.048 ieu nid 

a 200 0.4801 0.000 1.620 Su O TIM 4.288 
#[49]4.235 6.800 0.750 3.6001 4.830 55.500 1.400 
#[57]0.900 2.000 0.104 4.190 3 ROL 3b (ORE dO 

Hu attr(,"method") 

F [1] "capping" 

## attr(,"var type") 

## [1] "numerical" 

## attr(,"outlier pos") 

$4 [1] 1 8 12 14 21 24 29 41 45 

E attr( "outliers" 

## [1] 6654.0 2547.0 160.0 465.0 187.1 529.0 207.0 521.0 250.0 

## attr(,"type") 

## [1] "outliers" 

## attr(,"class") 

## [1] "imputation" "numeric" 


summary (iout) 


td 
T4 
## 
ub 
HE 
## 
+H 
+H 
## 
ub 
HE 
## 
td 
td 
## 
ub 


Impute outliers with capping 


* Information of Imputation (before vs after) 
Original Imputation 


n 
na 

mean 

sd 

se mean 
IOR 
skewness 
kurtosis 
p00 

p01 

p05 

p10 


62. 
.000000 
. 789984 
-158011 
-133182 
. 602500 
.563608 
.741020 
.005000 
-908050 
.024250 
-077600 


000000 


62. 
ipn 
EF 
188. 
2d 
-602500 
Ta 
.906775 
.005000 
-008050 
-024250 
„077600 
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000000 
000000 
465790 
962302 
998244 


839467 


8 
3 
8 
0. 
3 
0 
0 


. 200 
.000 
. 200 
005 
-500 
. 280 
.060 


Ji aequ 
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14 p20 0.309000 0.309000 
## p25 0.600000 0.600000 
## p30 0.906000 0.906000 
## p40 1.494000 1.494000 
## p50 3.342500 do ag BID 
## p60 4.217000 4.217000 
## p70 PUBMED 
## p75 48.202500 48.202500 
## p80 61.600000 61.600000 
## p90 205.500000 5183.200000 
## p95 518.200000 518.200000 
## p99 4148.730000 518.200000 
## p100 6654.000000 518.200000 
plot (iout) 
H AJARI 1 
0.015- 
| 0.010 - 特征 名 称 
E 站] 填补 
C 
0.005- 
0.000 - 
I l 
0 2000 4000 6000 


图 3.10 ”异常 值 处 理 前 后 数据 的 分 布 
在 输出 的 结果 中 ，iout 是 sleep 数据 集中 BodyWgt 变量 进行 异常 值 填补 之 后 的 结果 ， 
summary(iout) 对 原始 数据 和 人 处理 之 后 的 数据 进行 了 对 比 ，plot(iout) 则 对 数据 处 理 前 后 的 分 
布 情况 进行 了 可 视 化 ， 如 图 3.10 所 示 。 


3.3.9 ”数据 转换 


在 数据 处 理 的 过 程 中 , 很 多 时 候 需 要 对 数据 进行 转换 , 最 基本 的 转换 就 是 数据 的 标准 化 ， 
其 目的 之 一 是 消除 数据 之 间 量 纲 的 影响 。 在 dlookr 包 中 ，transform( ) 函数 提供 了 一 系列 的 


o 


xr sri 4r ł 
qaen zer = ON HH a 
LI 第 j El Å RAJAI: 


数据 转换 的 方法 ， 包 括 以 下 几 种 。 
€ zscore: zscore kk, JLEEHIRZ AJ. ( x-mu ) / sigma。 
minmax: 标准 化 转换 ， 其 转换 公式 为 (xY-min)/(max-min) 。 
log: log 转换 。 
log+1: log 转换 。 
sqrt: 平方 根 转 换 。 
lx: 倒数 转换 。 
x^2: 平方 转换 。 
x^3: 立方 转换 。 
数据 转换 过 程 中 经 单 遇 到 的 一 个 问题 是 数据 是 有 偶 的 。 要 进行 数据 转换 ， 首 先 需要 识别 
出 数据 是 否 存 在 有 偶 现 象 ， 然 后 需要 对 有 偶 的 数据 进行 处 理 。dlookr 中 的 find skewness( ) 
可 以 计算 出 变量 的 仿 态 值 。 需 要 注意 的 是 ， 想 要 计算 变量 的 偏 态 情况 ， 这 里 需要 先 对 数据 
的 缺失 值 情 况 进行 处 理 ， 否 则 计算 出 的 偏 态 值 为 NA。 


nb a MIELE 
## BodyWgt BrainWgt NonD Dream Sleep Span Gest 
T4 6.404 4.948 NA NA NA NA NA 


从 结果 中 可 以 看 出 ，BodyWgt、BrainWgt SITE EZc 328. Je BJ UP NL TAE RRE, 
所 以 都 是 NA。 可 以 对 BodyWegt 绘制 密度 曲线 图 ， 观 察 其 分 布 ， 如 图 3.11 所 示 。 


plot(density(sleepSBodyWgt)) 


BodyWgt 特征 的 密度 图 


S 
0.000 0.005 0.010 0.015 


0 1000 2000 3000 4000 5000 6000 
N=62 ”带宽 =14.01 
图 3.11 数据 分 布 
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从 图 3.11 中 可 以 看 到 ， 数 据 的 分 布 非常 靠 左 。 接 下 来 对 数据 进行 对 数 转换 ， 数 据 转换 
所 使 用 的 函数 是 transform( )， 第 一 个 参数 是 需要 进行 转换 的 数据 ， 第 二 个 参数 是 method， 
用 于 指定 进行 何 种 转换 。 和 转换 之 后 观察 数据 的 分 布 。 箱 线 图 如 图 3.12 所 示 。 

BodyWgt <- transform(x = sleepSBodyWgt,method = "log") 


summary(BodyWgt) $»* head(3) 
## * Resolving Skewness with log 


T4 

44$ * Information of Transformation (before vs after) 
Td Original Transformation 
## n 62.000000 62.00000000 
## na 0.000000 0.00000000 
## mean 198.789984 1.33753897 
## sd 899.158011 3.12312766 
## se mean 114.193182 0.39663761 
## IQR 47.602500 4.38419617 
## skewness 6.563608 0.152665760 
## kurtosis 45.741020 -0.37579027 
## poo 0.005000 2200 dp Td 
## pO1 0.008050 -4.87549759 
## p05 0.024250 =3. 73547572 
## p10 HEB -2.200530393 
## p20 0.309000 -1.18950576 
## p25 0.600000 -0.52029827 
## p30 0.906000 -0.09876684 
## p40 1.494000 0.39912428 
## p50 3.342500 1.20663819 
## p60 4.217000 1.43911029 
## p70 23n E TLOLO 3.13298678 
## p75 48.202500 3.86389790 
## p80 61.600000 4.12057642 
## p90 205.500000 5.32519645 
## p95 518.20000 6.25006441 
## p99 4148.730000 8.21718925 
## p100 6654.000000 8.80297346 
Td Original Transformation 
## n 62.00 62.000000 
## na 0.00 0.000000 
## mean 198.79 1337333 


plot (BodyWgt) 
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图 3.12 HRE 
从 图 3.12 中 可 以 看 到 ， 经 过 转换 之 后 的 数据 非 第 接近 正 态 分 布 。log 变换 是 一 种 第 第 
用 于 解决 数据 有 亿 问 题 的 方法 。 


3.3.10 ”数据 分 箱 


数据 分 种 是 对 连续 数据 进行 的 转化 ， 即 将 连续 数据 划分 为 不 同 的 间隔 ， 从 而 将 连续 数 
据 转 变 为 分 类 数据 。 这 样 做 的 好 处 是 可 以 减 小 数据 中 的 噪声 ， 从 而 让 数据 的 分 布 趋势 更 加 
明显 。 在 信用 评分 卡 建 模 中 ， 数 据 分 箱 是 连续 变量 必须 要 做 的 数据 转换 。 稼 用 的 数据 分 箱 
方法 很 多 ， 如 等 比分 箱 、 等 距 分 箱 。dlookr 包 中 的 binning( ) 函数 提供 了 很 多 方法 对 数据 进 
行 分 箱 ， 包 括 以 下 几 种 。 

e quantile: 使 用 分 位 数 进 行 分 箱 。 
equal: 等 距 分 箱 。 
pretty: FITA o 
kmeans: 使 用 开 均 值 进 行 分 箱 。 
bclust: 使 用 层次 聚 类 进行 分 箱 。 
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这 里 对 sleep 数据 集 的 Gest 特征 进行 分 箱 ， 结 果 如 图 3.13 所 示 。 


BodyWgt.b <- binning(sleepSGest,type = "kmeans") 
summary (BodyWgt.b) 


T4 levels freq rate 

## 1 AULUS 6 12 0.19354839 

T4 2 (32,58&] CORE E 

## 3 (56,106] 8 0.12903226 

## 4 (106,190] Tq Ue I pe 

## 5 (190,323] 9 0.14516129 

fH 6 (323, 532] e pss 

## 7 (532,645] 2 0.03225806 

## 8 <NA> 5 0.08064516 


plot (BodyWgt.b) 


使 用 天 均值 聚 类 方法 绘制 原始 数据 的 直方 图 


(a) 
使 用 天 均值 聚 类 方法 绘制 频率 柱状 图 
| 
` | 
(12,32] (56,106] (190,323] (532,645] 
(b) 


图 3.13 ”数据 分 箱 
AIh, binning by( ) 提供 了 一 种 最 佳 的 分 箱 方 法 ， 这 种 方法 在 信用 评分 模型 中 也 经 第 
用 到 ,使 用 这 种 分 箱 方法 可 以 让 变量 有 最 大 的 IV 值 AV 值 是 衡量 变量 重要 性 的 一 个 指标 ) 。 
这 里 用 到 的 数据 集 是 scorecard 的 german 数据 集 。 这 个 数据 集中 的 creditability 是 目标 变量 ， 
其 有 两 个 取 值 ， 即 bad、good， 分 别 表示 好 坏 客 户 。 下 面 的 代码 首先 加 载 了 scorecard 包 ， 


D 


me 


然后 加 载 所 需要 的 german 数据 集 ， 因 为 german 原始 的 变量 名 称 非 常 长 ， 因 此 这 里 对 数据 
集 的 第 二 个 特征 进行 重 命 名 ， 后 续 对 第 二 个 特征 进行 分 箱 。binning by() 的 第 一 个 参数 是 所 
使 用 的 数据 集 ， 这 里 指定 为 germancredit， 第 二 个 参数 是 y， 表 示 目 标 变量 ， 第 三 个 参数 是 x， 


表示 用 于 分 箱 的 变量 。 箱 线 图 如 图 3.14 所 示 。 


library (scorecard) 
data ("germancredit") 
namesí(germancredit)[2] <- "duration" 


Dice EIn e ae e germane redit y Sered cail reyi Aura Eeron] 


## binned type: optimal 
## number of bins: 3 


## x 

ir AL IES 335672 <NA> 
## 174 650 170 6 
plot (b1) 


分 布 数据 所 占 的 比例 (%) 


10 20 30 40 50 60 70 
(a) 


坏 样 本 比例 〈% ) 


<11 <33 = 33 x 11 x33 > 33 


图 3.14 箱 线 图 
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需要 注意 的 是 ， 这 个 函数 要 求 变 量 名 称 不 能 包含 “.”。 图 3.14(a) 显示 的 是 数据 的 分 布 。 
图 3.14(b) 显示 不 同 区 间 内 数据 量 的 占 比 。 图 3.14(c) 显示 不 同 区 间 内 坏 样本 的 占 比 。 图 3.14(d) 
显示 不 同 区 间 内 证 据 权 重 的 结果 。 

可 以 看 出 ， 数 据 集 被 划分 成 了 3 段 : (4,11]、(11,33]、(33,72]。 从 图 3.14 中 可 以 看 到 ， 
图 3.14(a) 是 好 坏 客户 中 duration 的 箱 线 图 。 可 以 发 现 , 当 目 标 变量 为 1 时 , 存在 一 些 极端 值 ， 
也 就 是 箱子 外 面 的 那些 点 ， 当 目标 变量 为 0 时，Distribution 的 范围 更 大 。 图 3.14(b) 显示 的 
是 不 同 区 间 内 样本 的 比例 ，(11,33] 这 个 区 间 内 的 样本 量 最 多 。 图 3.14(c) 显示 的 是 不 同 区 间 
内 坏 样 本 的 比例 ， 可 以 看 到 ， 坏 样本 的 比例 和 区 间 是 正 相 关 的 。 图 3.14(d) 显示 的 是 不 同 区 
IH] WoE 值 。 


3.3.11 创建 数据 转换 报告 


dlookr 可 以 快速 地 生成 一 份 数据 转换 报告 ， 生 成 报告 的 函数 是 transformation report( )， 
这 里 依然 使 用 sleep 数据 集 , 使 用 此 数据 来 生成 数据 转换 报告 。 生成 的 数据 转换 报告 如 图 3.15 
所 示 。 


Erans LL TE dak SI uormee Istud 


Transformation Information Report 


* 1 Imputation 

o 1.1 Missing Values 
a 1.1.1 Missing values imputation information 
= 1.1.2 NonD 
= 1.1.3 Dream 
= 1.1.4 Sleep 
a 1.1.5 Span 
= 1.1.6 Gest 

e 1.2 Qutliers 
a 1.2.1 Outliers imputation information 
" 1.2.2 BodyWgt 
a 1.2.3 BrainWgt 
a 1.2.4 Dream 
a 1.2.5 Span 
a 1.2.6 Gest 


图 3.15 ”生成 的 数据 转换 报告 
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图 3.15 就 是 一 个 完整 的 数据 转换 报告 。 最 后 一 部 分 就 是 数据 的 异常 值 的 处 理 。 异 常 值 
的 处 理 与 缺失 值 类 似 ， 一 般 有 3 种 解决 方案 。 

e 别 除 异常 值 。 

e 用 一 个 统计 量 来 替代 异常 值 。 

e 用 模型 来 估计 异种 值 。 

这 些 方法 与 缺失 值 的 处 理 是 类 似 的 。 需 要 注意 的 是 ， 如 果 异 常 值 的 比例 比较 高 ， 那 么 
需要 考虑 的 是 这 并 不 是 异常 值 了 ， 更 有 可 能 是 数据 本 身 就 来 自 两 个 分 布 ， 这 时 就 需要 对 数 
据 进 行 划分 ， 将 数据 划分 为 两 个 数据 集 ， 而 不 是 将 异常 值 当 作 一 个 需要 解决 的 问题 。 


3.4 数据 相关 性 


数据 分 析 的 任务 之 一 是 分 析 数 据 之 间 的 关系 ， 衡 量 数据 之 间 相 关 关 系 的 最 背 用 的 指标 
是 皮尔 森 相 关系 数 ， 其 次 有 Kendall 相关 性 系数 和 斯 皮尔 曼 相关 性 系数 ， 后 两 者 是 基于 秩 的 
相关 系数 。 

在 R 中 ， 计 算 相 关系 数 的 函数 是 cor( )， 进 行 相关 系数 检验 的 函数 是 cortest( )， 其 使 用 
语法 如 下 。 


COr(X, y, method = c("pearson", "kendall", "spearman")) 
nnn 


x 和 yy 分 别 是 数值 型 变量 ，method 参数 用 于 指定 计算 的 相关 系数 的 种 类 。 这 里 以 iris 数 
据 集 为 例 ， 对 数据 集中 的 Sepal.Length 变量 和 Sepal. Width 变量 进行 相关 性 分 析 。 

cor(iris$Sepal.Length,irisS$Sepal.Width,method = "pearson") 

## [1] -0.1175698 

cor(iris$Sepal.Length,iris$Sepal.Width,method = "spearman") 

## [1] -0.1667777 


cor(irisS$Sepal.Length,irisS$Sepal.Width,method = "kendall") 
## [1] -0.07699679 


计算 出 Sepal.Length 变量 和 Sepal. Width 变量 之 间 的 相关 系数 为 0.11， 进 一 步 进行 相关 
性 检验 ， 以 判断 二 者 的 相关 性 是 人 否 显 车: 


到 
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cor.test (ijris$Sepal.Length,iris$Sepal.Width,method = "pearson") 
Td 

## Pearson's product-moment correlation 

$4 

## data: iris$Sepal.Length and iris$Sepal.Width 

## t = -1.4403, df = 148, p-value = 0.1519 


## alternative hypothesis: true correlation is not equal to 0 
## 95 percent confidence interval: 

## -0.27269325 0.04351158 

## sample estimates: 

## cor 

## -0.1175698 


从 相关 性 检验 结果 可 以 看 出 ，p-value 是 0.1519， 不 能 拒绝 原 假 设 ， 则 认为 这 两 个 变量 


的 相关 性 为 0。 然 后 进行 Kendall 相关 性 检验 : 


cor.test(iris$Sepal.Length,iris$Sepal.Width,method = "kendall") 
ES 

## Kendall's rank correlation tau 

$4 


## data: iris$Sepal.Length and iris$Sepal.Width 

$4 z = -1.3318, p-value = 0.1829 

## alternative hypothesis: true tau is not equal to 0 
$4 sample estimates: 

## tau 

## -0.07699679 


从 相关 性 检验 结果 可 以 看 出 ，p-value 是 0.1829， 不 能 拒绝 原 假设 ， 则 认为 这 两 个 变量 


的 Kendall 相关 性 为 0。 然后 进行 斯 皮尔 曼 相 关 性 检验 : 


34 


cor.testí(iris$Sepal.Length,irisSSepal.Width,method = "spearman") 
$4 Warning in cor.test.default(irisS$Sepal.Length, iris$Sepal.Width, 
method - 


## "spearman"): Cannot compute exact p-value with ties 
## 

## Spearman's rank correlation rho 

UE 


## data:  iris$Sepal.Length and iris$Sepal.Width 

## S = 656280, p-value = 0.04137 

## alternative hypothesis: true rho is not equal to 0 
## sample estimates: 

i4 rho 

## -0.1667777 
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从 相关 性 检验 结果 可 以 看 出 ，p-value 是 0.04137， 不 能 拒绝 原 假设 ， 则 认为 这 两 个 变 
量 的 斯 皮尔 曼 相 天性 不 为 0。 

相关 性 矩阵 显示 一 个 数据 集中 所 有 变量 之 间 的 相关 性 。 在 R 中 ，corrplot 提供 了 相关 性 
矩阵 可 视 化 的 方法 。 这 里 用 到 的 数据 集 是 mtcars， 这 个 数据 集 是 R 自 带 的 一 个 数据 集 ， 可 
以 直接 使 用 。corrplot 包 中 的 corrplot( ) 函数 用 于 绘制 相关 系数 图 ， 在 corrplot( ) 函数 中 传 入 
一 个 相关 系数 和 矩阵， 则 会 返回 对 应 的 相关 系数 图 。 相 关系 数 图 如 图 3.16 所 示 。 


library (corrplot) 

## corrplot 0.84 loaded 
M«-cor (mtcars) 

head (round (M, 2), 3) 


Tu mpg cyl disp hp drat wt qsec vs am gear 
b 
is 1.00 -0.85 -0.85 -0.78 0.68 -0.87 0.42 0.66 0.60 0.48 
USES 
##cyl -0.85 1.00 0.90 0.83 -0.70 0.78 -0.59 -0.81 -0.52 -0.49 
eSa 
##disp -0.85 0.90 1.00 0.79 -0.71 0.89 -0.43 -0.71 -0.59 -0.56 
0.39 
corrplot(M, method = "circle") 
& - E] a m o E S £ 
E O UO I D > 9 Oo oO 
ua I OO OOO 
»e00000000099 
i» 9000 WOC 
r OOo o- © 
»eeec Qo 000 
和 GCC 0000 
s0000- 00° -0 
.e000ív000 9 
am 000 - 0 @ 
gear@O@0 QOO ET 
cab 0/0 e ooo 


图 3.16 相关 系数 图 
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图 3.16 中 的 每 一 个 格子 代表 两 个 变量 的 相关 系数 ， 颜 色 越 深 ， 说 明 其 相关 性 越 强 。 如 
果 和 希望 相关 系数 图 能 够 显示 具体 的 相关 系数 ， 则 只 需要 修改 相应 的 参数 ， 将 method 设置 为 
number， 则 相关 系数 图 如 图 3.17 所 示 。 

0 


M«-cor (mtcars[,c(1,2,3,4)]) 
head (round (M, 2),3) 


Lu mpg cyl disp hp drat wt qsec VS am 
gear carb 
## mpg 1.00 3 UMS UTIMS - de 0.42 0.66 Doom 
0.48 -0.55 
## cyl SE a ep 0.90 0.83 EEUU D mu 
-0.49 A 
## disp -0.85 0.90 1.00 0.79 -0.71 30.89 -D.43 -0.71 -0.59 
-0.56 0.39 
corrplot(M, method = "number") 

y 21 en o 

E BB € 


mpg 1 -0.85 | -0.85 


cy| | -0.85 1 0.9 
disp | -0.85 0.9 1 
一 一 一 一 一 一 一 一 一 一 | 


图 3.17 相关 系数 图 


在 图 3.17 所 示 中 ,x 轴 和 y 轴 分 别 表 示人 不同 的 特征 ， 并 且 图 中 每 一 个 单元 表示 数据 之 
则 的 相关 系数 的 具体 值 ， 其 数字 值 越 大 ， 表 示 相 天 性 越 强 。 

Performance Analytics 包 提 供 了 另外 一 种 对 于 相关 系数 矩阵 的 展现 方式 ， 其 不 仅 会 
绘制 变量 的 相关 系数 图 ， 而 且 会 分 析 特 征 的 分 布 ， 以 及 特征 之 间 的 散 点 图 。 使 用 chart. 
Correlation 进行 绘图 ， 第 一 个 参数 是 需要 进行 可 视 化 的 数据 集 ， 第 二 个 参数 histogram 是 一 
个 逻辑 值 ， 用 于 表示 是 否 绘制 特征 的 直方 图 。 相 关系 数 矩 阵 如 图 3.18 所 示 。 


(56). 


im 第 .了 * REO 


library(PerformanceAnalytics) 


my data <- mtcars[, cll,2,3,4,2,6)] 

chart.Correlation(my data, histogram = TRUE, pch = 19) 

在 图 3.18 中 , x 轴 和 ?了 轴 分 别 表 示 不 同 的 特征 。 从 图 3.18 中 可 以 观察 到 ， 这 种 展现 方 
式 将 图 分 成 了 3 个 部 分 ， 左 下角 十 数据 之 间 的 敌 扣 图 ， 对 角 线 古 数 据 之 间 的 直方 图 ， 右 上 
角 是 数据 之 则 的 相关 系数 。 这 种 展现 方法 展示 了 数据 的 更 多 信息 。 
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图 3.18 ”相关 系数 矩阵 


3.5 目 动 化 创建 数据 探索 报告 


上 文 提 到 了 很 多 数据 探索 的 方法 ， 数 据 探索 是 数据 分 析 和 模型 构建 的 初始 阶段 中 非常 
重要 的 一 个 过 程 ， 因 此 数据 探索 是 必 不 可 少 的 ， 但 是 数据 探索 的 过 程 往往 非 单 烦琐。R 中 
有 一 个 包 会 目 动 化 地 进行 数据 处 理 及 可 视 化 ， 更 加 快捷 地 进行 数据 探索 过 程 。 这 个 包 是 
DataExplorer， 第 一 次 使 用 需要 先 下 载 : 
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if (!require(devtools)) install.packages ("devtools") 
devtools::install github("boxuancui/DataExplorer", ref - "develop") 


接 下 来 依然 以 sleep 数据 集 为 例 ， 通 过 DataExplorer 创建 一 个 数据 探索 报告 ， 创 建 报告 
的 函数 是 create report( )， 传 入 需要 处 理 的 数据 集 即 可 创建 报告 。 

Sasra eae e ee 

函数 运行 完 之 后 ， 文 件 中 会 出 现 report.html, JEEP sleep 数据 集 的 一 个 数据 探索 报告 ， 
如 图 3.19 所 示 ， 当 然 也 可 以 输出 其 他 格式 的 报告 。 


数据 探索 报告 中 有 6 个 部 分 ， 即 基本 的 统计 量 、 数 据 结构 、 缺 失 值 分 机 、 单 变量 分 布 、 
数据 相关 性 分 析 及 主 成 分 分 析 。 基 本 统计 量 如 图 3.20 所 示 。 


Basic Statistics 
Raw Counts 
Mame 


Discrete columns 


i 5 
+ Principal Component Analysis 


图 3.19 ”数据 探索 报告 


图 3.20 ”基本 统计 量 


结果 显示 了 数据 集 的 一 些 基 本 情况 ， 包 括 数据 维度 、 数 据 缺 失 值 情 况 等 。 数 据 相 关 性 
分 析 如 图 3.21 所 示 。 


还 有 男 一 种 创建 报告 的 情况 ， 即 当 数 据 中 存在 标签 时 ， 可 以 在 创建 报告 的 时 候 指 定好 
数据 的 标签 ， 这 样 报 告 中 还 会 有 关于 标签 的 分 析 ， 这 里 以 dris 为 例 创 建 分 析 报 告 。 报 告 的 
结构 如 图 3.22 所 示 。 


create report(iris,y = "Species") 


4.07 
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图 3.21 数据 相关 性 分 析 


Data Profiling Report 
« Basic Statistics 
o Raw Counts 
o Percentages 
« Data Structure 
« Missing Data Profile 
« Univariate Distribution 
e Histogram 
o Bar Chart (by frequency) 
o QQ Plot 
e QQ Plot (by Species) 
« Correlation Analysis 
s Principal Component Analysis 
e Bivariate Distribution 
o Boxplot (by Species) 
e Scatterplot (by Species) 


图 3.22 ”报告 的 结构 


报告 比较 长 , 这 里 就 不 详细 对 其 进行 展示 了 。 使 用 Data Explorer 创建 自动 化 报告 方便 、 
快速 ， 可 以 让 数据 分 析 人 员 更 加 专注 于 分 布 数据 本 号 所 强 仿 的 信息 。 


深入 浅 出 R 语 言 数据 分 析 
3.6 总 fà 


TUS TR 38 76 — NIERE, JEU EAEE ACASDUECK AUS LAU 
RABTHASCEMEAIDA, Tf] EL rS 2225038 23 TA R Y ROBUR T3 JB Oo CAS DA XE] H E 
地 了 解数 据 所 经 含 的 信息 ， 进 一 步 为 解决 业务 问题 提供 帮助 。 本 章 介 绍 了 数据 探索 的 一 些 
基本 内 容 ， 并 且 介绍 了 数据 探索 的 一 些 及 包 及 工具 ， 最 后 介绍 了 目 动 化 生成 数据 探索 报告 
的 方法 ， 利 用 这 种 方法 可 以 快速 地 进行 数据 探索 ， 让 数据 分 析 人 员 更 加 专注 于 分 析 数 据 本 
Py rz RIS eb e 
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生存 分 析 是 统计 学 一 个 非常 古老 的 领域 ， 早 在 1700 年 之 前 就 开始 有 相关 的 


研究 了 。 如 今生 存 分 析 在 工程 、 保 险 、 营 销 、 医 学 等 更 多 领域 发 挥 了 重大 的 作用 。 


R 


语言 提供 了 丰富 的 生存 分 析 方法 ， 有 大 量 的 与 生存 分 析 有 关 的 资源 可 


以 使 用 , 如 图 4.1 所 示 。 下面 这 个 链接 提供 了 R 中 所 有 与 生存 分 析 相 关 的 内 容 : 


https: 


//CRAN.R-project.org/View=Survival。 


CRAN Task View: Survival Analysis 


Maintains: Arthur Alligrscl and Aurelien Latouche 
Contact: — arthur.allignol at gmail.com 
Version: 2013-05-14 


URL: 


htipss /CRAN.R-projectorg/ views Survival 


Survival analysis, also called event history enalyss In social sclence, or reliability analysis in engineering, deals with time until occurence af an event of interest. However, this Tallure 
time may not be abserved within the relevant time period, producir so-called censored observations. 


This task view aims at presenting tha useful R packages Tor tha analysis of time tn event data. 


Please let the malntainers know If something Is Inaccurate er missing. The Task Vhew Is also on github, Feel Tee to open an baue or submit a pull request. 


Standard Survival Analysis 


Estimation of the Survival Distribution 


Kaplan-Meier: The sueveit function from the survival packege computes the Kapian-Meler estimator for truncated and/or censored data. rms (replacement cf the Design 
package) preposea à modited version of the surzszit function, The prodlim package implements a fast algorilhr and scorre features rut included in aurybyal. varicus confidence 
intervals and confidence bands Tor the Kaplan-Meier estimator are implemented in the kruci package. plot.surv Of package aha plots the Kaplan-Meier estimator. The 
package lroludes a function to compute the Kaplan-Meler estimator for left-censored data. svyles in giungey provides a welghted Kaplan-Meler estimator. nastas. km In 
MastedCohort estimates the survival curve for each level af categorical varisbles with missing data. The kaglan-meier function in spatstat computes the Kaplan-Meier estimator 
from histogram data. Tha MAMSE package permits to compute a weighted Kaplan-Meier estimate. The x function in package rficep plats the survival function using a variant of 
the Kaplan-Meler estimator in a hospitalisation risk context. The survPrasmooth package computes prasmocthed estimates of the main quantities used for right-censored data, 
Le. survival, hazard and density functions. The asbio package permits to compute the Kaplan-Meier estimator following Pollock et al. (1338). The bpcp package provides several 
Tunctions tor computing conndence Intervals of te survival distribution (e.g, bets product canmidence procedure). The Ipigssury packege offers various Iersgth-bias corrections to 
survival curve estimation. Non-Parameatric confidance bands for the Kaplan-Meier estimator can be computed using the kmconfbeand package. The landest package allows 
landmark estimation and testing ef survival probabilities. Tha jacklknifaENIE package campartas the original and modified [ackknife estimates of E aplan-Meler eectimatore. The 
condsuRVv package provides methods for estimating the conditional survival function far ordered multivariate failure time data. The ate package implements the generalised 
Turnbull estimator prepased by Dehdghan and Duchesne Tor estimating the conditisnal survival function with interval-cersared data. 


图 4.1 R 中 生存 分 析 的 包 总 结 


这 个 类 目 包 含 了 R 中 有 关 生 和 存 分 析 的 所 有 内 容 。 无 论 是 学 习 还 是 从 事 研 
完 ， 都 可 以 从 这 个 类 目 中 获取 很 大 的 收获 。 本 章 会 介绍 生存 分 析 的 基本 概念 ， 
并 且 在 R 中 进行 生存 分 析 。 


4.1 生存 分 析 的 基本 内 容 


生存 分 析 最 初 应 用 于 研究 分 析 患 者 被 确诊 之 后 多 长 时 间 会 死亡 ， 因 此 这 
种 分 析 方 法 被 称 为 生存 分 析 。 生 存 分 析 的 目的 通常 有 如 下 几 种 。 
e 估计 : 根据 样本 生存 数据 估计 总 体 生 存 率 及 其 他 有 关 指 标 〈《 如 中 位 生 
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存 期 等 ) 。 例如， 根据 脑 瘤 患者 治疗 后 的 生存 时 间 ， 估 计 不 同时 间 的 生存 率 ， 计 算 
生存 曲线 及 中 位 生存 时 间 等 。 

比较 : 对 不 同 处 理 组 生存 率 进 行 比较 。 例 如 ， 上 比较 不 同 疗 法 治疗 脑 瘤 的 生存 府 ， 以 
了 解 哪 种 治疗 方案 较 优 ; 比较 两 种 版 本 的 产品 用 户 的 流失 举 ， 分析 流失 时 间 是 否 存 
在 差异 ， 以 了 解 不 同 版 本 的 优 劣 。 

影响 因素 分 析 : 探索 和 了 解 影响 生存 时 间 的 因素 ,如 研究 某 个 或 某 些 因素 对 生存 率 
的 影响 。 例 如 ， 为 改善 脑 瘤 病 人 病情 ， 应 了 解 影响 病人 病情 的 主要 因素 ， 包 括 病人 
的 年 龄 、 性 别 、 病 程 、 治 疗 方案 等 。 

预测 : 具有 不 同 因素 水 平 的 个 体 生 存 预 测 。 例 如 , 根据 脑 瘤 病 人 的 年 龄 、 性 别 、 病 程 、 
肿瘤 分 期 、 治 疗 方案 等 预测 该 病人 某 年 (HO 的 生存 率 。 


总 而 言 之 ， 生 存 分 析 的 目的 是 研究 某 对 象 某 一 时 间 某 一 事件 的 发 生 的 概率 ， 以 及 影响 
对 象 事件 发 生 的 因素 。 

1. 生存 分 析 的 应 用 场景 

从 本 质 上 讲 ， 生 存 分 析 研 究 的 是 被 观察 对 象 会 在 何 时 发 生 某 个 事件 的 问题 ， 任 何 可 以 
归 类 为 这 种 问题 的 场景 都 可 以 应 用 生存 分 析 ， 这 些 场景 包括 以 下 几 种 。 


银行 业务 : 预测 客户 的 流失 率 和 客户 的 生命 周期 价值 (Life Time Value, LTV ) 。 
保险 : 险种 随时 间 变 化 的 赔付 概率 。 

抵押 贷款 : 抵押 贷款 兑换 概率 随时 间 的 变化 。 

电子 商务 : 用 户 下 次 购买 的 概率 随 着 时 间 的 变化 。 

TUE. 食品 客户 开始 购买 该 食品 的 时 间 。 

制造 : 某 个 机 器 部 件 的 使 用 寿命 。 

公共 部 门 : 某 个 关键 事件 的 时 间 间 隔 。 


以 上 场景 都 可 以 使 用 生存 分 析 方 法 进行 分 析 。 生 存 分 析 的 问题 一 般 是 传统 的 回归 模型 
无 法 解决 的 。 例 如 ， 回 归 模 型 预 负 的 结果 范围 是 闻 关 了 负数 范围 的 ， 但 是 生存 分 析 的 时 间 
只 能 是 正 数 ， 男 外 ， 生 存 分 析 存 在 删 失 数据 。 

2. 生存 分 析 的 基本 概念 

生存 分 析 通 第 被 定义 为 一 组 用 于 分 析 数 据 的 方法 ， 其 中 络 朱 变量 是 一 个 时 间 点 到 任何 
感 兴趣 事件 发 生 的 时 间 。 这 个 事件 可 能 是 死亡 、 疾 病 发 生 、 婚 姻 、 离 婚 等 ， 或 者 任何 与 时 
则 相关 的 事件 。 使 用 生存 分 析 的 原因 是 它 具 备 处 理 删 失 数据 的 条 件 〈 测 量 或 观察 的 数据 仅 
部 分 已 知 的 条 件 ) ， 而 其 他 技术 包括 线性 回归 ) 不 能 够 很 好 地 解决 这 类 问题 。 
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3. 生存 函数 的 定义 

下 面 简单 地 介绍 一 下 生存 分 析 相 关 的 基本 概念 ， 这 些 概念 是 非常 重要 的 。 首 先 ， 假 设 
T 为 非 负 数 随 机 变量 ， 代 表 直 到 事件 发 生 时 的 等 待 时 间 ， 定 义 : F(t): F(t)  Pr(T «t), H 
为 事件 友 生 时 间 小 于 1 的 概率 。 

生存 函数 (Survival Function) 为 患者 、 设 备 或 其 他 感 兴趣 对 象 在 任何 给 定 的 指定 时 间 
内 存活 的 概率 的 函数 。 它 的 定义 如 下 : 


S(t)=Pr(T » t) -1- F(r) - f(x)dx 
生存 函数 定义 的 是 在 上 时 间 凡 事物 没有 发 生 茶 事件 的 概率 。 
风险 函数 (Hazard Function ) 持 述 的 是 事物 能 够 在 东 个 时 间 氮 存活 的 概率 。 它 的 定义 如 下 : 
(m EST) 


以 上 是 生存 分 析 相 关 的 基本 定义 ， 包 括 生存 函数 ， 风 险 函 数 的 定义 。 这 些 都 是 生存 分 
析 中 最 基本 的 概念 ， 接 下 来 介绍 生存 分 析 中 的 一 个 特殊 问题 。 

4. 删 失 数据 

删 失 数据 (Censored Data) 是 指 在 研究 某 事物 的 观察 过 程 中 ， 该 对 象 生存 时 间 没 有 被 完 
全 观测 到 ， 造 成 了 生存 数据 不 完整 的 现象 。 在 实际 的 实验 观察 中 ， 一 般 很 难 准 确 地 观察 到 
对 象 状态 变化 的 精确 时 间 点 ， 例 如 ， 和 零件 在 被 用 现 的 时 候 已 经 损坏 了 一 段 时 间 了 ， 或 者 患 
者 在 被 治愈 之 前 就 已 经 停止 了 治疗 ， 等 等 。 由 于 观察 手段 或 者 被 观察 对 象 存在 种 种 限制 ， 
因此 难免 会 出 现 观 察 数 据 不 完整 的 情况 。 

删 失 数据 一 般 分 为 3 种 ， 即 左 删 失 、 右 删 失 和 区 间 删 失 。 

e 左 删 失 (LeftCensored) : 指 的 是 事件 的 发 生 时 间 只 能 确定 在 某 一 时 间 点 之 前 。 

e 右 删 失 (Right Censored) : 指 的 是 事件 的 发 生 时 间 只 能 确定 在 某 一 时 间 点 之 后 。 

e 区 间 删 失 (Interval Censored ) : 指 的 是 事件 的 发 生 时 间 只 能 确定 在 某 一 时 间 区 间 内 。 

文字 定义 有 有 一些 抽 象 , 图 4.2 通 过 可 视 化 的 方式 展示 了 生存 分 析 中 删 失 数 据 的 具体 含义 。 

在 图 4.2 中 ， 可 以 更 加 清晰 地 理解 不 同 删 失 数据 之 间 的 差别 ， 其 中 ， 用 点 来 表示 事件 
发 生 的 真实 时 间 ， 使 用 直线 来 表示 对 象 被 研究 观察 的 时 间 段 ， 使 用 虚线 来 表示 对 象 没 有 被 
观察 到 的 时 间 段 。 从 图 4.2 中 可 以 看 出 ， 对 象 1 的 事件 友 生 时 间 在 被 整个 观察 的 过 程 中 ， 
因此 是 没有 删 失 数据 的 ; 对 象 2 的 事件 发 生 时 间 并 不 在 被 观察 到 的 时 间 段 内 ， 只 能 确定 事 
件 友 生 时 间 是 在 示 一 个 时 间 氮 之 后 ， 因 此 这 种 删 失 数据 属于 右 删 失 数据 ; 对 象 3 的 事件 发 
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生 时 间 是 在 某 个 时 间 扣 之 前 ， 因 此 数据 属于 左 删 失 数 据 ， 对 和 象 4 的 事件 发 生 时 间 在 某 个 可 
以 确定 的 时 间 区 间 之 内 ， 因 此 数据 属于 区 间 删 失 数 据 。 


实验 之 前 实验 之 后 


时 间 
图 4.2 删 失 数 据 


5. 生存 分 析 方 法 
生存 分 析 方 法 通常 有 3 种 ， 包 括 非 参 数 生 存 分 析 方 法 ， 半 参数 生存 分 析 方 法 及 参数 生 
存 分 析 方 法 。 不 同 的 方法 有 不 同 的 使 用 条 件 ， 如 表 4.1 所 示 。 
表 4.1 生存 分 析 方法 
WESS 000 [Kapax-Meirl O O [EG o 


一 般 而 言 ，3 种 模型 都 会 使 用 到 ， 并 且 随 着 技术 的 发 展 ， 机 器 学 习 模型 同样 被 应 用 于 
生存 分 析 ， 如 随机 生存 森林 模型 ， 接 下 来 介绍 如 何 使 用 R 语言 进行 生存 分 析 。 


4.2 使 用 RR 语言 进行 生生 分 析 


R 语言 中 有 大 量 可 以 用 于 解决 生存 分 析 问 题 的 工具 。 通 和 常 而 言 ， 使 用 及 语言 进行 生存 
分 析 会 用 到 survival 包 ， 本 章节 会 用 到 的 包 如 下 。 
@ survival: 使 用 尺 语 言 进 行 生存 分 析 最 常用 的 一 个 包 ， 包 含 生 存 分 析 相 关 的 大 部 分 
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内 容 。 这 个 包 和 包含 了 一 个 数据 集 一 一 lung 数据 集 。 其 是 晚期 肺癌 患者 的 生存 数据 ， 
包含 了 其 日 常 活动 的 一 系列 指标 ， 这 也 是 本 章节 用 到 的 数据 集 。 
survminer: 包含 ggsurvplot( ) 函数 ， 用 于 绘制 生存 曲线 。 
flexsurv: 提供 了 生存 分 析 的 参数 模型 。 
ranger: 随机 森林 算法 的 实现 包 ， 并 且 其 可 以 构建 随机 生存 森林 模型 。 
ggfortify: 用 于 对 生存 曲线 进行 可 视 化 。 

在 这 一 部 分 使 用 及 语言 进行 生存 分 析 ， 包 括 非 参数 生存 分 析 方 法 、 参 数 生 存 分 析 方 
法 及 半 参 数 生 存 分 析 方 法 。 在 进行 分 析 之 前 ， 首 先 需 要 准备 好 数据 ， 这 里 使 用 的 数据 集 是 
lung， 其 己 经 包含 在 survival 包 中 ， 因 此 ， 当 加 载 好 这 个 包 之 后 ， 融 可 以 直接 使 用 。 这 份 数 
据 集 是 癌症 治疗 组 的 晚期 肺癌 患者 的 生存 率 ， 包 含 各 种 指标 以 描述 其 日 钊 表现 。 下 面 代 三 
加 载 了 所 需要 使 用 的 包 、 数 据 集 ， 并 且 对 数据 集 进 行 了 人 简单 展示 : 


# 相关 的 包 

library (survival) 

library(survminer) 

$* Loading required package: ggplot2 
$4 Loading required package: ggpubr 
## Loading required package: magrittr 
library (knitr) 

library (flexsurv) 

library (survminer) 


# 所 使 用 的 数据 

attach(lung) 

(head(lung,95)) 

## inst time status age sex ph. Ecog ph.karno  pat.karno 
meal.cal 

wt.loss 

## 1 3 306 2 74 ll 1 90 100 | 
NA 

并 并 2 3 455 2 68 ji 0 90 90 T225 
iks 

#H 3 3 a Eb i 0 90 90 NA 
P5 

## 4 2 210 2 57 1 1 2] 60 TSD 
ul 

## 5 il 883 5 60 1 0 100 90 NA 

0 


以 上 就 是 生存 分 析 的 数据 ， 下 面 介绍 数据 中 的 字段 售 义 。 
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e inst: 机 构 的 代码 。 

e time: 生存 的 时 间 ， 单 位 是 天 。 

e status: 1 表示 没有 死亡 ，2 表示 死亡 。 

€ age: 年 龄 。 

@ sex: 1 表示 男性 ，2 表示 女性 。 

€ ph.ecog: 一 个 表现 分 数 。0 表示 最 好 ，5 表示 最 糟 。 

@ ph.karno: 医生 评价 的 Karnofsky 评价 。0 表示 最 早 ，100 表示 最 好 。 
€ pat.karno: 患者 评价 的 Karnofsky 评价 。0 表示 最 早 ，100 表示 最 好 。 
@ meal.cal: 用 餐 时 消耗 的 卡路里 。 
€ wtloss: 最 近 六 个 月 下 降 的 体重 数 。 
这 一 份 数据 集 不 需要 进行 进一步 的 处 理 ， 可 以 直接 使 用 。 


4.3 ” 非 参 数 模型 


非 参 数 回归 是 回归 分 析 中 的 一 种 ， 其 中 预测 变量 没有 预定 的 形式 ， 而 是 仅仅 从 数据 中 
的 信息 产生 的 。 在 这 种 情况 下 ， 不 会 有 任何 关于 分 布 的 假设 ， 也 没有 关于 人 危险 函数 的 任何 
假充 。 


4.3.1 ”使 用 Kaplan-Meier 方 法 拟 合 数据 


Kaplan-Meier 方法 在 数据 量 比 较 小 的 时 候 非 党 有 用 ， 但 是 这 种 方法 只 能 比较 有 限 的 几 
组 样本 。 在 及 语言 中 处 理 非 参数 生存 分 析 的 第 一 步 是 构建 一 个 Survival 对 象 ， 用 于 表示 时 
间 及 事件 是 否 发 生 。 在 R 语言 中 ， 通 过 Surv( ) 函数 来 创建 生存 对 象 ， 此 函数 包括 两 个 主要 
参数 ， 即 time. event. time 表示 生存 时 间 ，event 表示 事件 的 状态 。 

lung$SurvObj <- with(lung, Surv(time = time,event = status)) 


(head(luna,95)) 
## | inst time status age sex ph.ecog ph.karno pat.karno  meal.cal 


wt.loss 
## 1 3 306 2 74 1 1 90 100 1175 
NA 


四 


第 A = moin 


$42 3 455 2 68 jl 0 90 90 Bp 
L5 

i3 3 1010 1 56 il 0 90 90 NA 
PS 

## 4 5 210 2 57 1 1 90 60 1150 
TS 

## 5 1 883 2 60 i: 0 100 90 NA 
0 

Td SurvObj 

## 1 306 

## 2 455 

## 3 1010+ 

## 4 210 

$4 5 883 


Survival 对 象 本 质 上 表示 的 是 时 间 ， 从 SurvObj 这 个 字段 可 以 看 出 ， 有些 数字 包含 “+”， 
其 中 “+” 表 示 事 件 友 生 了 ,“- ”或 者 没有 符号 表示 事件 疫 有 友 生 。 构建 好 Survival 对 象 之 后 ， 
就 可 以 开始 构建 Kaplan-Meier 模 型 .在 RR 语言 中 ,通过 survival 包 中 的 survfit( ) 函数 进行 构建 ， 
这 个 函数 与 线性 回归 模型 的 拟 合 图 数 Im( ) 非常 相似 ， 其 最 主要 的 区 别 是 模型 公式 的 左边 : 
对 于 lIm( ) 函数 ， 其 是 回归 模型 的 因 变 量 ; 而 对 于 survfit( ) 函数 ， 其 是 一 个 生存 分 析 对 象 。 


km.by.sex <- survfit(Surv(time, status) ~ sex, data = lung) 
km.as.one <- survfit(Surv(time, status) ~ 1, data = lung) 
km.as.one 

## Call: survfit(formula = Surv(time, status) ~ 1, data = lung) 
## 

## n events median 0.95LCL 0.95UCL 

## 228 165 S 285 363 


从 km.as.one 的 这 个 络 采 中 可 以 看 出 ， 这 里 得 出 的 是 事件 及 生 与 时 间 之 间 的 关系 。 通 过 
summary( ) 可 以 得 出 每 一 个 时 间 点 死 志 的 概率 、 误 关 及 区 间 佑 计 : 


summary(km.as.one,times = c(1,50,100,200,300* (1:3))) 


## Call: survfit(formula = Surv (time, status) ~ 1, data = lung) 

## 

## time n.riskn.event survival std.err lower 95$ CI 
upper 95$ CI 

id 1 228 0 1.0000 0.0000 1.0000 1-000 

## 50 217 qe 0.9518 Da 0.9243 0.980 

gd 100 196 20 0.8640 0-0227 0.8206 0.910 

## 200 144 41 0.6803 0-0311 0.6219 0.744 

Td 300 p 29 0,5306 0.0346 0.4669 0.603 

d 600 24 47 0.2136 0.0335 0.1571 0.290 
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dd 900 3 17 0 00503 0.0228 0.0207 TENES 
km.by.sex 

## Call: survfit(formula = Surv (time, status) ~ sex, data = lung) 
## 

Ui n events median 0.95LCL MS EOIN 

## sex-1 138 112 270 212 SUNT 

$4 sex-2 90 53 426 348 inb 


从 km.by.sex 结果 中 可 以 看 出 ， 这 里 通过 性 别 来 划分 数据 ， 进 一 步 比 较 不 同性 别 死亡 


的 概率 及 死亡 发 生 的 时 间 。 


summary(km.by.sex,times = 


el pns pes 


## Call: survfit(formula = Surv(time, status) ~ sex, data = lung) 
## 

## sex-1 

## time n.risk n.event survival std.err lower 95% CI upper955%CI 
TF 1 138 0 1.0000 0.0000 1.0000 1-000 
Td 50 128 10 Bog Bons 0.8853 0.972 
TG 100 114 14 0.8261 Dou ss U. TOZ 0.892 
## 200 78 30 0.6073 0.0417 0.5309 Un 
4 300 49 20 0.4411 0.0439 0.3629 [35 
dd 600 13 29 ld 0.0353 0.0900 0.234 
r> 900 2 9 HESS y JEHAN 0.0109 erem 
Td 

## Sex-2 

## time n.risk n.event survival std.err lower 95$ CI upper 95% CI 
## JL 90 0 1.0000 0.0000 1.0000 1.000 
## 50 89 il 0.9889 BLUE 0.9675 1.000 
Td 100 82 6 UB 0.0283 0.8683 0.979 
## 200 66 LL 0.7946 0.0432 0.7142 0.884 
Td 300 43 9 0.6742 BED D 5T] 0.785 
$4 600 11 18 0.3433 0.0634 0.2390 0.493 
## 900 l 8 0.0832 0.0499 0.0257 Dos 


从 这 里 可 以 看 出 ， 男 性 在 600 天 时 的 存活 概率 是 0.1451， 而 女性 在 600 天 时 的 存活 概 


率 为 0.3433; 男性 在 300 天 时 的 存活 概率 为 0.4411, 而 女性 在 300 天 时 的 存活 概率 为 0.6742. 
从 结果 可 以 得 出 ， 女 性 在 每 一 个 时 间 扣 的 存活 概率 都 局 于 男性 。 


4.3.2 ”Kaplan-Meier 方 法 的 可 视 化 


通过 survminer 包 的 ggsurvplot( ) 图 数 可 以 对 Kaplan-Meier 方法 拟 合 的 结果 进行 可 视 化 。 
将 构建 的 生存 分 析 模 型 传递 给 ggsurvplot( ) 图 数 , 即 可 构建 出 生存 图 , 如 图 4.3 和 图 4.4 所 示 。 
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im * 27 s msan 


library (survminer) 
ggsurvplot(í(km.as.one) 


特征 二 全 部 
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0.00 
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生存 时 间 
图 4.3 Kaplan-Meier 方法 ( km.as.one ) 
ggsurvplotíkm.by.sex) 
特征 一 性 别 =1 ”一 性别 =2 
F 
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生存 时 间 
4.4 Kaplan-Meier 方法 ( km.by.sex ) 
在 图 4.3 和 图 4.4 中 ,x 轴 表 示 生 存 时 间 ，y 轴 表 示 生 存 概率 ， 其 中 特征 是 图 例 ， 表 示 


深入 浅 出 民 语 言 数 据 分 析 


不 同 生 存 曲 线 的 含义 ， 性 别 =1 表示 性 别 为 男性 ， 性 别 =2 表示 性 别 为 女性 。 图 4.3 显示 的 
是 从 0 到 1000 天 患者 存活 的 时 间 概 率 ， 可 以 发 现 ， 到 了 第 1000 天 ， 患 者 还 是 有 5% 的 概 
率 存活 ， 或 者 说 5% 的 患者 可 以 存活 到 1000 天 。 图 4.4 显示 的 是 男女 不 同 群 体 之 间 的 生存 
曲线 其 中 上 方 的 曲线 代表 性 别 =2， 下 方 的 曲线 代表 性 别 =1 (1 一 男性 ，2 一 女性 ) ， 可 以 看 
到 ， 女 性 群体 的 生存 曲线 在 男性 群体 的 生存 曲线 之 上 ， 这 说 明 女 性 群体 比 男性 群体 有 更 高 
的 存活 概率 。 


4.4 ” 半 参 数 模型 生存 分 析 万 法 


半 参 数 模型 同样 不 会 对 生存 函数 或 者 危险 函数 的 形式 作出 任何 假设 ， 但 是 其 对 于 协 变 
量 存在 一 个 很 强 的 假设 。 使 用 Cox 模型 来 解决 生存 分 析 问 题 的 时 候 ， 这 里 有 两 个 强 假设 需 
要 满足 ， 第 一 个 是 对 数 线性 假定 〈 模 型 中 的 协 变量 应 与 对 数 风 险 比 呈 线 性 关系 ) ， 第 二 个 
是 比例 风险 假定 〈 各 危险 因素 的 作用 不 随时 间 的 变化 而 变化 ) 。 


4.4.1 构建 Cox 模 型 


使 用 survival 包 中 的 coxph( ) 构建 Cox 模型 ， 这 个 函数 的 使 用 方法 与 survfit( ) 类 似 ， 
第 一 个 参数 是 模型 的 公式 ， 公 式 的 左边 需要 传 入 一 个 生存 对 象 ， 公 式 的 右边 是 其 他 与 事件 
有 关 的 特征 。 


cox <- coxph(Surv(time = time, time2 = status) ~ age + sex + 
ph.karno + wt.loss, data = lung) 

COX 

## Call: 

## coxph (formula = Surv (time = time, time2 = status) ~ age + sex + 

Td ph.karno + wt.loss, data = lung) 

Td 

LE: coef exp(coef) se(coef) zZ pP 

## age 0.015140 FOIS 255 0.009837 1.539 0.12379 

## sex -0.513955 0.598125 0.174410 -2.947 0.00321 

## ph.karno -0.012871 0.987211 0.006184 =2. 081 0.03741 

## wt.loss -0.002246 0.997757 0.006357 -0.353 0.72389 

Td 


## Likelihood ratio test-18.84 on 4 df, p-20.0008436 


4$ n2 214, number of events- 152 


Td (14 observations deleted due to missingness) 


结果 输出 了 偏 回 归 系 数 的 点 估计 值 、 标 准 误差 、p 值 ， 同 时 输出 了 相对 危险 度 、 模 型 
整体 的 LR 检验 、wald 检验 及 score 检验 。 


442 ”检查 假设 


cox.zph 适用 于 检验 Cox 模型 的 比例 风险 假设 (Proportional Hazards Assumption) 。 使 


用 cox.zph 对 构建 好 的 Cox 模型 进行 检验 ， 绪 果 分 别 如 图 4.5 一 图 4.8 所 示 。 


(res <- cox.zph (cox)) 


## 

## age 

## sex 

## ph.karno 
## wt.loss 
44 GLOBAL 
plot (res) 


rho 
-0.00837 
nl 
0.23963 
0.05930 
NA 
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4.7 ph.karno 的 风险 比例 图 
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图 4.8 wt.loss 的 风险 比例 图 
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在 图 4.5 一 图 4.8 中 ,x ARRE, y 轴 表 示 不 同 特征 的 协 变量 系数 。 该 检验 的 零 假 
设 为 协 变 量 的 效应 (系数 ) 与 时 间 无 明显 关系 ， 可 以 看 出 4 个 变量 的 p 值 只 有 ph.karno 小 
T 0.05， 同 时 ， 整 体 的 假设 检验 结果 P=0.01686<0.05， 依 据 a=0.05 的 检验 水 准 ， 应 该 拒绝 
原 假设 ， 认 为 该 Cox 回归 模型 不 满足 比例 风险 假定 。 

图 4.5 一 图 4.8 通 过 创建 与 时 间 的 交互 图 形 来 检查 模型 中 预测 变量 的 比例 .y 轴 是 风险 比 ， 
x 轴 是 时 间 ， 因 此 如 果 曲 线 具 有 正 斜 挛 ， 则 意味 着 随 着 时 间 的 推移 危险 具有 上 升 的 倾 回 ， 
此 其 具有 非 比例 性 。 如 果 曲 线 是 平坦 的 ， 则 意味 着 其 具有 比例 性 。 图 4.5 与 图 4.8 显示 age 
和 wt.loss 的 风险 比比 较 平稳 ， 图 4.6 与 图 4.7 显示 ph.karno 和 sex 的 风险 比 存在 一 定 的 趋势 ， 
因此 同样 可 判断 Cox 回归 模型 不 满足 比例 风险 假定 。 


4.4.3 ”Coxph 模 型 可 视 化 


ggfortify 包 中 的 autoplot( ) 函数 可 以 对 Coxph 模型 进行 可 视 化 ， 如 图 4.9 所 示 。 


library (ggfortifvy) 
autoplot (survfit (cox) ) 


Ó 20 k 7io 1000 
4.9 Coxph 模型 的 生存 曲线 图 
在 图 4.9 中 ,x 轴 表 示 生 存 时 间 ，y 轴 表 示 生 存 的 概率 。 可 以 将 Coxph 模型 的 生存 曲线 
与 非 参 数 模型 的 生存 曲线 进行 比较 ， 非 参数 模型 的 生存 曲线 同样 可 以 使 用 autoplot( ) 进行 绘 
制 ， 如 图 4.10 所 示 。 
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autoplot(km.as.one) 


yA 


100% = 


795 7 


25%- 


4.10 Kaplan-Meier 模型 的 生存 曲线 图 
在 图 4.10 中 ,x 轴 表 示 生 存 时 间 ，y 轴 表 示 生 存 概率 。 可 以 发 现 ， 两 种 模型 的 生存 曲线 
其 实 和 差异 不 大 ， 原 因 之 一 是 数据 量 比较 小 。 当 数据 量 比较 大 时 ， 二 者 会 有 比较 明显 的 区 别 。 


4.4.4 预测 


当 构 建 好 了 模型 之 后 ， 如 果 有 一 份 新 的 数据 ， 则 可 以 使 用 构建 好 的 模型 进行 预测 。 这 
里 使 用 lung 数据 集 的 第 二 条 数据 进行 了 预测， 预测 其 生存 概率 。 使 用 survfit( ) XE fT TU, 28 
一 个 参数 是 构建 好 的 模型 ， 第 二 个 参数 是 需要 预测 的 新 数据 。 

pc <- survfit(cox,newdata = lung[2,]) 


summary (pertimes = c({1,50,100,200,300*(1:3))) 
## Call: survfit(formula = cox, newdata = lung[2, ]) 


## 

## time n.risk n.event survival std.err lower9ļ95% CI upper 95$ CI 
T4 1 214 0 MUI 0.0000 1.0000 1.000 

六 并 50 204 10 0.948 Doe BETIERU 0.9147 [92 

4 100 186 17 DH 0.0291 aD Dale 

## 200 140 34 0.667 0.0446 ü3893D 0.760 

## 300 89 25 0.491 D USAS 0.3984 0.605 
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UE 600 24 44 0.176 0.0462 0.1053 0.294 
UE 900 3 17 SERIE 0.0229 BEES SSMUS 
autoplot (pc) 


在 图 4.11 F, x 轴 表 示 生 存 时 间 ，y 轴 表 示 生 存 概率 。 如 图 4.11 所 示 ， 会 预测 出 新 数 
据 每 一 天 的 生存 概率 。 


10095 - s 


T50 1000 


500 
时 间 
图 4.11 Kaplan-Meier 模型 的 生存 曲线 图 


4.4.5 NZ 


如 果 有 分 类 变量 不 满足 比例 风险 假定 ， 我 们 可 以 使 用 分 层 Cox 回归 模型 。 分 层 Cox 回 
归 假 定 层 变量 之 间 存 在 不 同 的 基线 风险 。 下 面 的 代码 以 肿瘤 大 小 为 层 变量 ， 进 行 分 层 Cox 
回归 。 下 面 使 用 ph.karno 进行 分 层 ， 实 现 方式 是 对 需要 分 层 的 特征 调用 strata( ) 函数 。 

cox <- coxph(Surv(time = time, time2 = status) ~ age + sex + 


Strata(ph.karno) + wt.loss, data = lung) 
summary (cox) 


$4 Call: 

## coxph(formula = Surv(time = time, time2 = status) ~ age + sex + 
$4 strata (ph.karno) + wt.loss, data = lung) 

T4 


## n= 214, number of events= 152 
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td (14 observations deleted due to missingness) 

## 

## coef exp (coef) se (coef) Z Ex 
## age 0.018253 1.018421 T eT 1.821 0.068536 
## sex 0 0.546989 UE PROS -3.345 yD 
$4 wt.loss -0.005364 0.994651 0.006693 -0.801 0.422881 
ib enm 

Fes Dor opp xw oc pq omae css sce e 
## 

LE exp (coef) exp(-coef) lower .95 upper .95 

## age 1.0184 0.9819 0.9986 1.039 

## sex 0.5470 1.8282 0.3841 0.779 

## wt.loss 0.9947 1.0054 0.9817 1.008 

## 


## Concordance= 0.615 (se = 0.028 ) 

## Rsquare= 0.069 (max possible= 0.983 ) 

## Likelihood ratio test= 15.38 on 3 df, p=0.002 
## Wald test = p=0.002 
## Score (logrank) test 14.94 on 3 df, p=0.002 


注意 ， 分 层 Cox 回归 是 调整 层 变 量 因 素 后 得 到 的 ， 层 变量 不 出 现在 模型 之 中 。 
石 想 获 得 分 层 的 Cox 回归 的 生存 概率 预测 值 ， 可 以 为 每 一 层 绘制 一 个 生存 曲线 ， 如 
图 4.12 所 示 。 


pre «- survfit(cox,newdata = lung[2,]) 


pre 

## Call: survfit(formula = cox, newdata = lung[2, ]) 

Td 

## n events median DES Brei 0.95UCL 
## ph.karno-50 3 4 y a 107 NA 

## ph.karno-60 18 Ies DoS got 524 

$4 ph.karno-70 31 28 208 163 291 

## ph.karno-80 63 44 239 183 363 

## ph.karno=90 68 43 ms 268 457 

## ph.karno=100 29 18 253 320 791 


autoplot (pre) 


在 图 4.12 F, x 轴 表 示 生 存 时 间 ，y HARRER. LEARI I 6m. AES 
有 6 条 生存 曲线 。 
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图 4.12 ”分 层 预测 结果 的 模型 的 生存 曲线 图 


4.5 参数 异型 


参数 模型 与 非 参 数 模 型 非常 相似 ,不同 点 在 于 需要 定义 什么 分 布 拟 合 数据 , 如 指数 分 布 。 
参数 模型 的 效果 最 好 ， 但 是 困难 点 在 于 不 容易 找到 合适 的 分 布 。 参 数 模型 是 去 寻找 合适 的 
分 布 ， 因 此 ， 可 以 使 用 AIC 准则 来 判断 当 给 定 模 型 本， 数据 信息 丢失 了 多 少 。AIC 值 越 小 ， 
模型 拟 合 得 越 好 。 另 外 ， 这 里 用 到 的 包 是 flexsurv， 用 到 的 函数 是 Hexsurvreg( )， 其 中 使 用 
dist 参数 指定 使 用 的 分 布 。 下 面 这 段 代 码 分 别 拟 合 了 10 种 分 布 的 模型 ， 并 且 通 过 AIC 准则 
比较 哪 一 种 模型 最 合适 ， 使 用 flexsurvreg( ) 来 构建 参数 模型 ， 第 一 个 参数 依然 是 公式 ， 公 
式 的 左边 是 一 个 生存 对 象 ， 第 二 个 参数 是 dist， 用 于 指定 使 用 什么 分 布 进行 拟 合 ; 然后 通过 
AIC 函数 来 获取 模型 的 AIC 值 。 


attach (lung) 

9 <  DuüUrv (time, Catus) 

Dist «- o("ekp",; "welbull", "Inorm", "gamma", "qomperttz". 
"gengamma", "gengamma.orig", "genf", "genf.orig", "llogis") 

AIC <- matrix(ncol = 2, nrow = 10) 
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fori in I: IET 
AIC[i,1] <- Dist[1i] 
#model <- flexsurvreg(S ~ 1, dist=Dist[i]) 
model <- flexsurvreg(S ~ 1, dist=Dist[i]) # fit the exponential model 
AIC[i,2] <- AIC (model) 
} 


colnames (AIC) <- c("Distribution", "AIC") 

AIC <- base::transform(AIC, Distribution = as.character (Distribution), 
AIC = as.factor (AIC)) 

#### clean up AIC 

AICSAIC <- as.numeric(levels(AICSAIC)[AICSAIC]) 

AIC [order (AICSAIC}),] 


## Distribution AIC 

## 2 weibull Z311. 702 
## 7 gengamma.orig 23l S0 
## 6 gengamma esabsp-esgD 
## 4 gamma 2313.469 
## 5 gompertz 2314.711 
## 8 genf 2 TIB3 
H9 genf.orig Ziel 
$4 10 llogis aspe 
## 1 exp 2326.676 
## 3 lnorm 2342.538 


当 比 较 可 以 在 及 语言 中 使 用 的 不 同 分 布 的 AIC 时 ，Weibull 分 布 具有 最 低 的 AIC 


(2311.702) ， 这 意味 着 它 是 适合 数据 的 最 佳 分 布 。 


然后 重新 构建 Weibull 分 布 的 拟 合 模型 ， 以 图 形 方 式 查 看 Weibull 分 布 的 模型 拟 合 结果 ， 


如 图 4.13 所 示 。 
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weibmodel«-flexsurvreg(S ~ 1, dist-"weibull") 
plot(weibmodel, ylab-"Survival probability", 
xlab-"Time", main = "Weibull Survival Plot") 
legend("topright",legend-c("KM Plot","Fitted"), 
lty-c(1,1),col-2c("black","red"), cex-0.75) 


YA Weibull 生存 图 
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图 4.13 Weibull 模型 的 生存 曲线 图 

相对 平滑 的 曲线 代表 拟 合 ， 表 示 拟 合 的 Weibull 图 ;围绕 拟 合 曲线 波动 的 曲线 代表 卡 普 
兰 一 迈 尔 图 ， 表 示 Kaplan-Meier 图 虚线 表示 生存 曲线 的 置信 区 间 。 根 据 图 4.13， 我 们 可 以 
看 到 卡 普兰 一 迈 尔 图 和 拟 合 Weibull 图 之 间 的 精度 差异 ， 特 别 是 在 375 天 左右 的 差异 。 由 于 
数据 集 较 小 ， 卡 普兰 一 迈 尔 图 和 拟 合 Weibull 图 看 起 来 非常 相似 ， 但 参数 模型 允许 更 精确 的 
参数 估计 ， 并 允许 更 多 的 预测 建 模 。 

构建 好 生存 分 析 的 参数 模型 后 ， 对 于 新 样本 ,可 以 使 用 模型 进行 预测 。 这 里 比较 特殊 ， 
需要 使 用 summary( ) 函数 进行 预测 ， 第 一 个 参数 是 构建 好 的 模型 ， 第 二 个 参数 是 newdata， 
是 需要 预测 的 数据 集 ， 第 三 个 参数 是 tf， 表 示 预 测 第 多 少 天 的 生存 概率 。 


600 


pre <- summary(weibmodel,newdata- lung[2,],t = c(100, 200, 300, 400, 
500,600)) 

pre 

t4 = 

Td time est dg ucl 

## 1 100 0.8588388 HH Dg 0.892746 
## 2 200 0.6844801 90.6337248 00.7342070 
## 3 300 us GL 0.4715455 0.5788625 
$4 4 400 D 38589 PTS ,3337847 0.4442865 
44$ 5 500 0.2816790 0.221718833 0.3337719 
## 6 600 0.1997281 00.1491217 0.2499716 
这 里 ， 预 测 出 了 样本 100 ~ 600 天 的 生存 概率 。 
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4.6 随机 生存 森林 模型 


随 夏 机 器 学 习 的 发 展 ， 机 器 学 习 模 型 被 应 用 于 生存 分 析 的 问题 上 ， 其 中 包括 随机 生存 
森林 模型 。 有 几 个 包 可 以 实现 随机 生存 牺 林 ， 包 括 ranger、randomForestSRC。 本 节 通 过 
ranger 包 实 现 随 机 生存 森林 模型 。 

随机 生存 森林 模型 通过 ranger( ) 函数 构建 ，ranger( ) 为 数据 集中 的 每 个 观察 值 建立 一 
个 模型 。 下 面 代码 块 使 用 前 面 Cox 模型 中 使 用 的 数据 及 变量 构建 模型 ， 并 绘制 20 条 随机 
曲线 , 以 及 实 线 表 示 所 有 患者 的 全 局 平均 值 的 曲线 。 使 用 ranger( ) 构建 随机 生存 森林 模型 ， 
第 一 个 参数 依然 是 公式 ， 公 式 的 左边 是 一 个 生存 对 象 ， 第 二 个 参数 是 data， 表 示 用 于 建 模 
的 数据 集 ， 第 三 个 参数 是 mtry， 用 于 表示 所 选取 的 特征 数目 ， 第 四 个 参数 是 importance; 
用 于 指定 变量 重要 性 的 模型 ， 第 五 个 参数 是 splitrule， 用 于 指定 决策 树 的 划分 指标 ， 第 六 
个 参数 是 verbose， 表 示 是 人 否 显 示 运 行 状态 。 所 绘制 的 Kaplan-Meier 模型 的 生存 曲线 图 如 
图 4.14 所 示 。 


library (ranger) 
E IC e Prangerteurvit me Status] ~age T SEX T 
ph.karno + wt.loss, data = na.omit (lung), 


mtry = 4, 
importance = "permutation", 
splitrule = "extratrees", 


verbose = TRUE) 


# Average the survival models 

death times <- r fit$unique.death.times 
surv prob «- data.frame(r fit$survival) 
avg prob «- sapply(surv prob,mean) 


# Plot the survival models for each patient 
plot(r fit$unique.death.times,r fit$survival[1,], 


Type md 

ylim = c(0,1), 

col = "red", 

xlab = "days", 

ylab = «survival», 

main = «Patient Survival Curves») 


z 
puc cS 
for (n in sample(c(2:dim(veteran)[1]), 20))í 
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lines(r fit$unique.death.times, r fit$survival[n,], type = "I", col = 
corsini] 
} 
lines (death times, avg prob, lwd = 2) 
legend(500, 0.7, legend = c({('Aveẹrage = black')) 


y) 患者 生存 曲线 


0.0 0.2 0.4 0.6 0.8 1.0 


0 200 400 600 800 1000 
天 数 
图 4.14 Kaplan-Meier 模型 的 生存 曲线 图 
在 图 4.14 rH, x filo IE TERT IRI, y 轴 表 示 生 存 概率 。 图 4.14 显示 了 随机 生存 森林 模 
型 中 每 个 树 的 生存 函数 曲线 及 平均 的 生存 函数 曲线 。 
接 下 来 显示 变量 的 重要 性 ， 模 型 的 属性 variable.importance 指定 了 数据 的 重要 性 。 


vi <- data.frame(sort(round(r fit?variable.importance, 4), decreasing = 


TRUE) ) 

names(vi) «- "importance" 
head (vi) 

Td importance 
## ph.karno 0.0254 

## sex 0.0221 

## wt.loss -0.0032 

## age -0.0062 


从 结果 可 以 看 出 ， 随 机 生存 森林 模型 将 sex 和 ph.karno 当 作 较 重 要 的 两 个 模型 ， 这 与 
上 文中 Cox 模型 p 值 显著 的 两 个 变量 相同 。 

构建 好 模型 之 后 ， 如 果 需 要 预测 新 数据 的 生存 曲线 ， 可 以 通过 ranger 的 predict( ) 函数 
进行 预测 ,预测 数据 使 用 lung 的 第 二 条 数据 。 随 机 生存 森林 预测 结果 的 生存 曲线 图 如 图 4.15 
所 示 。 
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p <- predict(r fit,data = lung[2,1) 
plot(pSsurvival,type = '1l', ylab-"Survival probability", 


xlab-"Time", main - "Predict Survival Plot") 
; 预测 生存 曲线 
eo 
e 
wł 
SE o 
t s 
H q 
eo 
ON 
o : > 
0 50 100 150 
时 间 


图 4.15 ”随机 生存 森林 预测 结果 的 生存 曲线 图 
在 图 4.15 中 , x 轴 表 示 生 存 时 间 ,y 轴 表 示 生 和 存 概率 。 模 型 构建 好 之 后 ， 对 于 新 的 数据 ， 
就 可 以 使 用 这 样 的 方式 进行 预测 ， 从 而 获得 一 个 新 样本 的 生存 曲线 。 


生存 分 析 是 研究 被 观 肾 对 象 会 在 何 时 友 生 条 个 事件 的 问题 。 传 统 的 线性 分 析 并 不 能 很 
好 地 解决 生存 分 析 的 问题 : 

e 生存 数据 中 ， 时 间 是 一 个 正 数 ， 线 性 回归 的 预测 范围 涵盖 了 负数 。 

@ 线性 回归 问题 不 能 很 好 地 处 理 删 失 数据 。 

通过 生存 分 析 ， 我 们 希望 能 够 得 到 研究 对 象 的 生存 情况 随时 间 变 化 的 特点 ， 估 计生 存 
率 和 平均 生存 时 间 ， 进 而 研究 影响 生存 时 间 和 观察 时 间 的 保护 因素 和 不 利 因 素 。 常 用 的 方 
法 有 3 种 ， 分 别 是 非 参 数 方法 、 半 参数 方法 及 参数 方法 。 本 章 最 后 介绍 了 机 器 学 习 在 生存 
分 析 领 域 的 应 用 。 
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第 5 章 主 成 分 分 析 
在 数据 分 析 项 目 中 , 经 常 遇 到 的 情况 是 有 很 多 数据 可 以 用 , 这 是 一 件 好 事 ， 
但 是 有 的 时 候 这 些 数据 中 存在 很 多 元 余数 据 ， 也 就 是 说 数据 存在 相关 性 或 者 
共 线 性 。 这 种 情况 给 数据 分 析 带 来 了 很 多 麻烦 。 不 必要 的 特征 太 多 会 导致 模 
型 过 于 复杂 ， 夫 线性 、 相 关 性 会 导致 模型 不 稳定 ， 即 数据 微小 的 变化 会 使 模 
型 结果 发 生 很 大 变化 。 主 成 分 分 析 是 解决 这 种 问题 的 一 个 工具 。 


5.1 概 X 


主 成 分 分 析 简 称 PCA, PCA 是 一 个 很 好 的 预 处 理工 具 ， 用 于 挑选 最 相关 
的 变量 线性 组 合 ， 并 在 预测 模型 中 使 用 它们 。PCA 有 助 于 我 们 找 出 数据 中 变 
化 最 大 的 变量 。PCA 也 是 一 种 解决 数据 共 线 性 问题 的 方式 。 

PCA 的 唯一 身 氮 是 它 以 无 监督 的 方式 生成 主 成 分 ， 即 与 数据 的 标 合 没有 
任何 关系 。 如 条 最 终 的 目的 是 构建 模型 的 话 ， 那 么 选 出 来 的 主 成 分 不 一 定 对 
标 侈 或 者 因 变 量 有 很 好 的 预测 能 力 。 本 章 会 介绍 PCA 的 一 些 基 本 概念 ， 并 且 
使 用 R 语言 进 行 主 成 分 分 析 。 


5.1.1 ”维度 相关 的 问题 


有 两 个 因素 会 使 得 数据 的 维度 变 得 非常 高 。 首 先是 具有 不 同 级 别 的 分 类 
变量 ， 其 次 是 数据 集中 的 元 余 变 量 。 当 所 构建 的 模型 中 包含 分 类 变量 时 ， 我 
们 使 用 虚拟 变量 , 并 且 分 类 变量 中 的 级 列 数 越 多 , 我 们 创建 的 虚拟 变量 就 越 多 ， 
这 会 增加 维度 。 元 余 变 量 代 表 数 据 集中 的 信息 不 够 精简 ， 多 个 特征 描述 了 同 
一 信息 。 例 如 ， 数 据 集中 有 3 个 特征 ， 即 收益 、 成 本 、 利 润 率 ， 这 3 个 特征 
就 存在 见 余 ， 因 为 第 三 个 特征 是 通过 前 两 个 特征 生成 的 ， 因 此 可 以 删除 见 余 
特征 。 


深入 浅 出 民 语 言 数 据 分 析 


多 重 共 线性 ( 共 线 性 ) 可 以 定义 为 回归 模型 中 的 两 个 或 更 多 个 变量 高 度 相 关 的 现象 ， 

几 余 变量 和 多 重 共 线 性 会 造成 很 多 问题 ， 例 如 : 

e 破坏 参数 估计 的 稳定 性 。 

e 混 消 模型 解释 。 

e 增加 过 度 拟 合 的 风险 。 

e 增加 计算 时 间 。 

输入 数据 的 微小 变化 (如 删除 或 添加 单个 变量 ) 会 导致 模型 发 生 较 大 变化 ， 甚 至 导致 
参数 符号 更 改 。 此 外 , 多 重 共 线性 增加 了 系数 估计 的 方 过 或 标准 误 过 , 使 其 对 微小 变化 敏感 ， 
从 而 导致 解释 困难 。 

当 我 们 讨论 数据 集 的 最 佳 回 归 模 型 时 ， 这 意味 看 模型 会 考虑 预测 变量 ， 其 中 每 个 预测 
变量 与 目标 / 因 变 量 相 关 ， 但 相互 之 间 儿 乎 没有 关联 。 这 种 模型 称 为 低 噪声 模型 ， 具 有 很 
强 的 鲁 棒 性 。 如 果 变 量 本 喘 之 间 的 相关 性 很 高 ， 并 且 我 们 在 训练 数据 集 上 获得 了 很 高 的 预 
测 能 力 ， 那 么 我 们 可 能 无 法 实现 在 测试 数据 集 上 相同 的 结果 。 


5.1.2 ”检测 多 重 共 线 性 


在 了 解 了 多 重 共 线性 如 何 影响 我 们 的 分 析 和 模型 的 预测 能 力 之 后 ， 和 学 习 如 何 检 测 数 据 
中 的 多 重 共 线 性 非 党 重要。 
可 通过 以 下 方法 检测 多 重 共 线性 。 
e 如 果 模 型 中 的 尺 平方 值 很 大 ， 则 模型 的 玉 检 验 是 显著 的 ,但 系数 估计 的 1 检验 不 是 
显著 的 ， 此 时 可 能 存在 多 重 共 线 性 。 
e 如 果 变 量 之 间 的 相关 性 很 大 ， 则 存在 多 重 共 线性 。 
e 通过 方差 膨胀 因子 来 检测 的 多 重 共 线性 。 


5.1.3 “方差 膨胀 因子 

在 检测 多 重 共 线 性 时 提 到 的 一 点 是 ， 变 量 对 之 间 的 相关 性 很 大 ， 但 有 时 只 关注 预测 变 
量 对 之 间 的 相关 性 可 能 是 一 个 限制 因素 。 

成 对 相关 性 的 可 能 很 小 ， 但 3 个 或 更 多 变量 之 间 和 存在 线性 相关 。 例 如 ， Xo X MX 
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闻 的 关系 由 线性 方程 定义 ， 例 如 , X,— 3X + 4X, + Error。 对 于 这 种 情况 ， 我 们 使 用 方差 膨 
胀 因子 。 
如 果 VIF 的 值 大 于 10， 则 这 表明 变量 之 间 存 在 一 些 严重 的 相关 性 。 
这 里 不 讨论 VIF 的 数学 推导 过 程 。VIF 的 公式 为 
VIF -1/ (1— Rsquare) 
多 重 共 线性 与 高 纬度 的 补救 措施 包括 : 
检查 其 中 一 个 变量 是 否 重复 。 
删除 宛 余 变量 。 
通过 收集 更 多 数据 来 增加 样本 量 。 
平均 中 心 预测 变量 。 
预测 变量 的 标准 化 ( 如 果 均 值 中 心 没有 影响 ) 。 
主 成 分 分 析 、 岭 回归 、 偏 最 小 二 乘 回归 。 
在 本 章 中 ， 我 们 将 借助 示例 讨论 主 成 分 分 析 。 


5.2” 主 成 分 分 析 详解 


主 成 分 分 析 经 常用 于 对 数据 的 降 维 ， 通 过 选择 具有 较 高 方差 的 主 成 分 来 蔡 代 原始 的 数 
据 。 主 成 分 分 析 的 另 一 个 主要 用 途 是 解决 多 重 共 线性 问题 。 此 外 ， 通 过 仅 对 所 有 主 成 分 的 
子 集 进行 回归 ， 主 成 分 分 析 可 以 显著 降低 基础 模型 的 参数 数量 。 

5.2.1. 主 成 分 分 析 的 定义 


假设 ， 最 初 模型 中 有 个 预测 变量 >, …,x 每 个 都 有 疡 条 记录 ， 则 数据 矩阵 如 下 所 示 : 


Xu Xp ct X 


lp 
Xa Xs c7 X 
21 *» 2p 
D-|: 
Anl X42 X 


通过 主 成 分 分 析 ， 我 们 将 生成 新 的 数据 窍 阵 D*,. KA n AWR, k (kK<<p) 个 变量 。 
需要 注意 的 是 ， 在 此 过 程 中 实际 生成 了 一 些 新 的 变量 ， 主 成 分 分 析 有 助 于 识别 数据 变化 最 
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大 的 个 变量 。 
主 成 分 分 析 使 用 如 下 线性 变换 : 
U, T dip X, 
U, da] a,, | X» 
u l 7 (5.1) 
U, d i d pp X, 


5.22. 主 成 分 分 析 的 人 简 蛙 原理 


假设 在 最 后 一 步 中 生成 的 p 个 新 变量 是 Ui,U,…,U,， 其 满足 以 下 两 个 条 件 。 

e 新 交 量 将 是 不 相关 的 (或 正 交 的 ) 。 

e 最 大 的 变化 将 沿 着 U ， 第 二 大 变化 将 沿 着 U, ， 第 三 大 变化 将 沿 着 U, ， 以 此 类 推 。 

主 成 分 分 析 的 原理 其 实 很 简单 ， 其 本 质 上 是 数据 的 线形 转换 。 使 用 > 表示 已, 闷 …, 蕊 
的 方差 - 协 方差 矩阵 ， 则 有 


2 2 

O1 Oi 

2 2 

Y- Gg *"^ is 
(5.2) 

2 2 

Opi O pp 


式 中 ，o,(1<i<p) 是 XX, 的 方差 ，o, (iz 有 是 和 Y 和 ,之 间 的 协 方差 。 
U, -a,X, ta, X, (5.3) 


则 有 
Var(U, ) 2 aj, Var(X, ) ++ a, Var(X, ) 
= aho? a0 + 2 Cov(X,, X) (5.4) 
- a; X a, (notecarefully) 


注意 ， 仅 通过 增加 wa,…:a ,的 值 就 可 以 增加 U, 的 方差 。 如 果 可 以 无 限 地 增加 系数 ， 则 


方差 也 将 无 限 增加 。 为 了 简化 计算 ， 必 须 对 其 进行 限制 。 通 过 设置 约束 yaz maus =1， 即 
i-l 
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a, KBEB^EZ; 3 1, IMET 253^ 8] CX. 
现在 问题 是 在 约束 ao =1 时 ， 最 大 化 a' a 。 为 解决 此 优化 问题 ， 按 如 下 方式 进行 
L, -aj a - 4 x (aa; -1) (5.5) 
最 后 得 到 > 的 特征 值 为 8 ，a, 为 对 应 的 特征 向 量 。 
同样 ， 对 于 U,， 优 化 方程 式 可 表示 为 
L, 2a; a, - À, x (aja, 1) m, x (a,a, —0) (5.6) 
同样 , 这 里 会 得 到 m, —0 . A, TET EOS — T RHUER a, 作为 相应 的 特征 向 量 , 以 此 类 推 。 


5.2.3” 主 成 分 分 析 的 算法 


IB o RIETI PHESCRTUH. p NAMES, CETTE XX, X, 

(1) FEX, X, X, 217 25— JI AERAR, BD X, X, X. 

(20 ETT X,, X, X, MIRES o 

(3) 通过 降低 数量 级 对 特征 值 进行 排序 ， 并 将 它们 存储 为 一 组 排序 的 特征 值 ， 特 征 
向 量 ) 对 。 

(4) 计算 主 成 分 (Principal Component, PC) 的 解释 方 过 比例 及 解释 方 魏 的 囚 积 和 。 

(5) 如 宁 在 最 后 一 步 中 计算 的 累积 和 非常 接近 1， 则 仅 选 择 第 一 个 大 特征 信 。 这 个 天 
PC 足以 捕获 由 原始 变量 生成 的 几乎 相同 量 的 可 变性 。 

(60 相应 地 提取 所 有 个 特征 癌 量 ， 并 且 仪 通过 将 它们 从 左 到 右 并 排 保 持 来 制作 变换 
矩阵 W. ZERIE RERBA n xk o 

(7) HATO F FE HP ER LE PUR RR EE 


Xl Xp X Wi Wz o Wk 


p 
«dX X2 077 Xp || Wu Won Wag 
D . . i 
~ X A Ww Ww Ww 
nl n2 np pl p2 pk 
(5.7) 
Yu Xo Yik 
20 Ja Yak 
Fal Yna n 
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5.3 ”使 用 R 语言 进行 主 成 分 分 析 


在 R 语言 中 有 很 多 方法 可 以 实现 主 成 分 分 析 ， 如 基础 的 prcomp( ) 函数 、psych 包 中 的 


principal( ) 函数 部 可 以 用 十 主 成 分 分 析 。 在 进行 主 成 分 分 析 之 前 ， 需 要 判断 壳 要 选取 多 少 个 
主 成 分 。 判 断 的 准则 很 多 ， 包 括 : 


@ 根据 经 验 或 者 理论 知识 判断 主 成 分 个 数 。 

e 根据 解释 变量 方差 的 积累 值 的 靖 值 来 判断 保留 的 主 成 分 个 数 。 

通过 变量 间 的 关系 算 阵 来 判断 需要 保留 的 主 成 分 个 数 。 

基于 特征 值 进 行 判 断 ， 根据 Kaiser-Harris 准则 建议 保存 特质 大 于 1 的 主 成 分 。 

e 使 用 Cattell 碎 石 图 进行 判断 ， 碎 石 图 绘制 了 特征 值 与 主 成 分 数量 ， 这 类 图 可 以 清晰 
地 展示 特征 值 与 主 成 分 个 数 之 间 的 关系 ， 图 形变 化 最 大 之 前 的 主 成 分 都 可 以 保留 。 

e 平行 分 析 法 ， 其 原理 是 模拟 一 个 与 原 数 据 集 相 同 大 小 的 矩阵 来 判断 提取 的 特征 值 ， 
若 真 实 的 菜 个 特征 值 大 于 随机 数据 矩阵 的 平均 特征 值 ， 则 可 以 保留 。 

利用 psych 包 中 的 .parallel( ) 函数 可 以 对 3 种 准则 (特征 值 大 于 1、 REX. O11 23 T ) 


进行 评价 。 所 用 a 到 的 数据 集 是 psych 包 中 目 市 的 一 个 数据 集 一 一 Thurstone。 使 用 fa.parallel( ) 
构建 碎 石 图 的 参数 是 需要 进行 主 成 分 分 析 的 数据 集 。 雁 石 图 如 图 5.1 所 示 。 


library (psych) 

fa.parallel (Thurstone, fa="pc") 

## Warning in fa.parallel(Thurstone): It seems as if you are using a 

## correlation matrix, but have not specified the number of cases. The 
number 

## of subjects is arbitrarily set to be 100 

## Parallel analysis suggests that the number of factors = 3 and the 
number of components = 1 


在 图 5.1 中 ，x 轴 表 示 主 成 分 的 个 数 。y 轴 表 示 主 成 分 的 特征 值 。Parallel Analysis Scree 


Plots 是 这 幅 图 的 名 称 ， 表 示 绘 制 的 是 碎 石 图 。 其 中 PC Actual Data 表示 实际 数据 主 成 分 
4 THAO RAR, PC Simulated Data 表示 模拟 数据 的 主 成 分 分 析 碎 石 图 结果 。FA Actual 
Data 表示 实际 数据 的 因子 分 析 的 雄 石 图 结果 ，FA Simulated Data 表示 模拟 数据 的 因子 分 析 
Hymn EZ. 


图 5.1 所 示 碎 石 图 的 结果 给 出 了 3 种 准则 的 评判 结果 。 从 结果 中 可 以 肥 现 ， 特 征 值 大 


于 1 的 特征 包含 3 个 ; 琴 石 图 的 曲线 从 第 一 个 特征 到 第 二 个 特征 之 间 有 急剧 的 变化 ， 因 此 ， 
选取 第 一 个 主 成 分 ;根据 平 行 分 析 法 ， 有 一 个 特征 大 于 随机 和 窍 阵 的 特征 ， 总 而 言 之 ， 选 取 


第 D s smack. 


一 个 主 成 分 最 合适 。 


平行 分 析 曲 线 图 
一 一 实际 数据 的 主 成 分 
模拟 数据 的 主 成 分 


3 


2 


主 成 分 及 因素 分 析 


主 成 分 个 数 
图 5.1 RAR 


53.1. 主 成 分 分 析 的 实现 


使 用 prcomp( ) 函数 和 psych 包 的 principal( ) 函数 可 以 实现 主 成 分 分 析 。 对 于 prcomp( ) 
而 言 ， 传 入 需要 进行 主 成 分 分 析 的 原始 数据 即 可 得 到 主 成 分 分 析 的 结果 。 


com <- prcomp (Thurstone) 
Com 


## Standard deviations (1, .., p=9): 


## [1] 4.068067e-01 3.717632e-01 1.747973e-01 1.614655e-01 1.328383e-01 
44 [6] 1.137641e-01 8.417453e-02 5.966690e6e-02 5.671327e-17 

T4 

## Rotation (n x k) = (9 x 9) 

td PC1 PC2 ED FPC4 
## Sentences -0.51809588 0.01904674 0.2219406 -0.10347521 
## Vocabulary -0.50023933 0.09586015 0.1948562 -0.03929555 
## Sent.Completion -0.51043041 0.05906835 0.1922287 -0.05061761 
## First.Letters 0.17889726 0,.41142018 OQ.27181580 0.28375796 
K4 Four.Letter.Words  0.22201272 0.34066448 10.3832537 40.47143714 
## Suffixes 0.06316668 0.48794084 -0.5349420 -0.38650203 
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## Letter.Series 0.12799298 -0.46305936 0.1213871 0.04342013 
## Pedigrees -0.18269477 —0:36539660 -0.4557516 0.57758413 
## Letter.Group 0.29283881 -0.34002238 0.3780991 -0.44445752 
## PCS PCO PC PCE 
## Sentences 0.06248519 -0.111471957 0.40722485 -0.68008332 
## Vocabulary 0.09218 721 =0.016188107 0.42092377 D.71770206 
## Sent.Completion -0 10617941 0099931122 -9:7675 rs 0045175329 
f$ First.Letters 0. 038219653 0. 752493096 0.13448197 -0.06117109 
## Four.Letter.Words -0.04884194 -0.625099183 -0.02856458 0.03809150 
f$ Suffixes 0.12836566 -0.114136797 0.06024721 0.04481668 
## Letter.Series 0.77851211 0,.,004042136 -0.05517789 0.05033184 
## Pedigrees -0.32964 974 0.079329046 0:14775329 0.031591293 
## Letter.Group -0.48920364 0.035988647 0.14513339 0.09806774 
## Eug 


## Sentences 0.163013221 
## Vocabulary 0.004977171 
## Sent.Completion I 2 0922025 
## First.Letters 0.222883485 
0 


## Four.Letter.Words 0.264802257 
## Suffixes 0.535941908 

## Letter.Series 1. 375361248 
## Pedigrees 0.392434091 
## Letter .Group 0.432241146 


结果 得 到 了 所 有 的 主 成 分 ， 然 后 根据 之 前 判断 的 主 成 分 个 数 ， 选 取 相 应 的 主 成 分 ， 即 
可 得 到 所 需 的 结果 。 

男 一 种 方式 是 使 用 principal( ) 进行 主 成 分 分 机， 其 可 以 通过 原始 数据 窍 阵 或 者 相关 系 
数 窍 阵 进 行 主 成 分 分 析 ， 其 主要 的 参数 如 下 。 

e r: 原始 数据 矩阵 或 者 相关 系数 矩阵 。 

€ nfactors: 选取 的 主 成 分 个 数 ， 默 认为 1。 

使 用 第 二 种 方式 进行 主 成 分 分 析 : 


com <- principal{(r = Thurstone,nfactors = 1) 
com 

## Principal Components Analysis 

## Call: principal(r = Thurstone, nfactors = 1) 
$4 Standardized loadings (pattern matrix) based upon correlation matrix 
i4 PC1 h2 u2 com 

## Sentences üpssec oer E, 1 

## Vocabulary 0.84 0.70 0.30 1 

$4 Sent.Completion esp il 

## First.Letters N72 0.52 0.48 1 

## Four.Letter.Words 0.71 0.51 0.49 1 
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$4 Suffixes 0:67 0.45 0.55 1 
$4 Letter.Series 0.67 0.45 0.55 il 
## Pedigrees UTD BD 5 1 
## Letter.Group 0.64 0.41 0.59 ak 
Lu 

ub PEI 


## SS loadings 4.85 
## Proportion Var 0.54 


Td 

## Mean item complexity = 1 

## Test of the hypothesis that 1 component is sufficient. 
Uu 

$4 The root mean square of the residuals (RMSR) is 0.12 
Td 


## Fit based upon off diagonal values = 0.94 


接 下 来 分 析 结果 ，PC1 栏 是 成 分 荷载 (Component Loadings) ， 表 示 观 测 变量 与 主 成 分 
的 相关 系数 ， 如 果 不 止 提取 一 个 主 成 分 ， 那 么 会 有 PC2 栏 或 者 PC3 栏目 。 成 分 荷载 可 以 用 
来 解释 成 分 的 含义 。 从 结果 中 可 以 看 出 ，PC1 与 所 有 的 变量 都 相关 ， 因 此 ， 这 个 主 成 分 是 
可 以 用 来 进行 一 般 性 评价 的 维度 。h2 是 公 因 子 方差 ， 表示 主 成 分 对 每 一 个 变量 的 解释 程度 。 
u2 表示 唯一 性 ， 指 的 是 变量 无 法 被 主 成 分 解释 的 部 分 。SS loadings 包含 了 与 主 成 分 相关 联 
的 特征 值 。Proportion Var 表示 每 个 主 成 分 对 整个 数据 集 的 解释 程度 。 从 结果 中 可 以 看 出 ， 
第 一 个 主 成 分 解释 了 所 有 变量 5496 的 方差 。 


5.3.2. 主 成 分 分 析 案 例 


在 这 里 ， 这 个 例子 将 使 用 USArrests 数据 ， 该 数据 包含 4 个 连续 变量 和 50 条 记录 。 
首先 创建 一 个 散 操 图 和 矩阵 米 检 查 变 量 之 同 的 关系 ， 然 后 加 载 USArrests 数据 集 。  glimpse( ) 
用 于 查看 数据 的 结构 ; apply( ) 函数 的 使 用 方式 类 似 于 for 循环 ， 只 是 其 效率 更 高 ， 
apply(USArrests,2,mean) 表示 计算 每 一 列 的 均值 , apply() 的 第 一 个 参数 是 需要 处 理 的 数据 集 ， 
第 二 个 参数 用 于 指定 是 对 行进 行 处 理 还 是 对 列 进行 处 理 〈2 表示 对 列 进 行 处 理 ) ， 第 三 个 
参数 用 于 指定 使 用 函数 进行 处 理 。 

data ("USArrests") 

head (USArrests,3) 


ud Murder Assault UrbanPop Rape 
$4 Alabama 13.2 236 58 21.2 
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## Alaska 1B OPES 263 48 44.5 
## Arizona 8.1 294 80 31.0 
library (dplyr) 


#Explore the structure of the data 
usarrests <- tbl df(USArrests) 
glimpse (usarrests) 
## Observations: 50 
## Variables: 4 
## $ Murder e la die Mae cec a EL ES: o, c | LT OMEN, ec E T 


17.4, 5> 

TIccUncaudteeeeun:-e295 2529 204 0c opas qp ss SHE 
DERE 

tr o Uran op Ine- a8: MB S0 SU EDI Succus HJ 1 aa, 
65, 

## $ Rape Sp dcr uUa scq mL Ie 
4108. 2. 

apply(USArrests,2,mean) 

44 . Murder Assault UrbanPop Rape 


## 7.788 170.760 65.540 21.232 
apply(USArrests,2,var) # 

Td Murder Assault UrbanPop Rape 
Td 18.97047 69345.16571 209.51878 97.72916 


每 个 变量 的 方差 都 有 很 大 差异 。 在 主 成 分 分 析 中 ， 平 均值 不 起 作用 ， 但 方差 在 定义 PC 
中 起 主要 作用 ， 因 此 变量 方差 值 的 非常 大 的 差异 肯定 会 主导 PC。 我 们 需要 标准 化 变量 以 获 
得 平均 值 /一 0 和 方差 c=1 。 为 了 标准 化 ， Rema = ET 

接 下 来 , 我 们 将 变量 标准 化 为 零 均 值 和 单位 标准 差 , 这 将 消除 变量 之 间 的 不 可 比 的 问题 。 
这 里 编写 了 一 个 函数 ， 函 数 输 入 一 个 同 量 作 为 参数 ， 然 后 对 传 入 的 向 量 取 平均 值 然 后 并 标 
惟 和 于， 函数 返回 处 理 之 后 的 结果 数据 ， 然 后 对 USArrests 使 用 编写 的 冰 数 进行 标准 化 。 

normalize «- function (x) 

{ 


return((x - mean(x))/sd(x)) 


} 


# create normalized variables 

usarrests2 <- usarrests $»$ 
apply(2, normalize) $25 
as.data.frame() 


接 下 来 对 数据 进行 探索 性 分 析 ， 分 析 特 征 的 分 布 及 特征 之 则 的 相关 性 ， 这 里 使 用 的 是 
GGally 的 ggpairs( ) 冰 数 ， 其 可 以 绘制 出 特征 的 分 布 图 、 特 征 之 间 的 散 点 图 ， 以 及 特征 的 相 


92 


第 D s gae 


关系 数 。Ggpairs( ) 的 第 一 个 参数 是 数据 集 第 二 个 参数 是 columns， 用 于 指定 选择 哪些 变 
量 进 行 绘图 。 散 点 图 矩阵 如 图 5.2 所 示 。 


library (GGally) 
## Loading required package: ggplot2 
Td 
$4 Attaching package: 'ggplot2' 
## The following objects are masked from 'package:psych': 
ub 
gp $15, alpha 
DES 
$4 Attaching package: 'GGally' 
## The following object is masked from 'package:dplyr': 
UE 
ui nasa 
ggpairs(data = usarrests2, 
columns = 1:4À,progress = F) 


Assault UrbanPop 


OTT: Corr: 


52 HAREK 


Rape 
COIT: 


0.564 


Cort: 
0.665 


COIT: 
0.411 


Jepni 


JJneSSW 


doguedqun 


ade 


—-X 


在 图 5.2 "B, x 轴 和 了 轴 代 表 着 不 同 的 特征 。 从 图 5.2 中 可 以 看 出 ，Murder 5 Assault. 
Assault 与 Rape. Murder 与 Rape、UrbanPop 5 Rape 都 是 高 度 相 关 的 。 因 此 ， 数 据 存 在 比 
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较 严 重 的 共 线 性 问题 。 
下 面 判 断 主 成 分 个 数 ， 结 果 的 碎 石 图 如 图 5.3 所 示 。 


fa.parallel(usarrests2,fa-"pc") 


UR IBS E 

ue 

e 

o 

Cx 
Sm un 
R 一 
is 
ER 
EN 
KR 
T o 
H 一 

ii: 

e 

1.0 1.5 2.0 2.5 3.0 3.5 4.0 
主 成 分 个 数 
图 5.3 RAH 
## Parallel analysis suggests that the number of factors = 2 and the 
number of components = 1 


在 图 5.1 中 ,x 轴 表 示 主 成 分 的 个 数 。y 轴 表 示 主 成 分 的 特征 值 。 
从 碎 石 图 来 看 ， 可 以 选取 一 个 主 成 分 。 
然后 分 列 进行 主 成 分 分 析 : 


pca.out<-prcomp (usarrests2) 
Pea out 
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## Standard deviations (1, .., p-4): 
i$ [1] 1.5748783 0.9948694 0.5971291 0.4164494 


44 Rotation (n x k} = (4 x 4): 

uu PGI PC2 PC3 PC4 
## Murder -0.5358995 0.4181809 -0.3412327 0.64922780 
## Assault -0.5831836 0.1879856 -0.2681484 -0.74340748 
tt UrDanPop MES E TZ be sr BB B2806000 D0373005000 1 US UT TT 
## Rape mesure uim, ues dires m br scu eis 
summary (pca .out) 

## Importance of components: 

ub PC1 pog PC3 PC4 
## Standard deviation -S749 0.93949 0.59713 D0 41643 
## Proportion of Variance 0.6201 0.2474 0.08914 0.04336 
1$ Cumulative Proportion 0.6201 0.8675 0.95664 1.00000 


现在 我 们 可 以 看 到 最 大 的 方差 百分比 由 PC 解释 ， 并 且 所 有 的 PC 都 是 不 相关 的 。 大 
约 62% KA Zi HH PC1 解释 ， 从 这 个 结果 同样 可 以 判断 ， 选 取 一 个 主 成 分 即 可 。 

让 我 们 建立 一 个 双重 图 来 更 好 地 理解 。 使 用 biplot( ) 绘制 双重 图 ，biplot 的 第 一 个 参数 是 
主 成 分 分 析 的 结果 ， 其 他 参数 是 对 图 形 细节 的 调整 。 主 成 分 分 析 的 双重 图 结果 如 图 5.4 所 示 。 


biplot(pca.out,scale = 0, cex=0.65) 


-0.5 0.0 0.5 


w 
e 
: 
" x 
ER 
uU) 
3 
-X 


-3 -2 -1 0 1 2 3 
第 一 主 成 分 
图 5.4 主 成 分 分 析 的 双重 图 结果 
在 图 5.4 中 , x AM y 43 0 EZ 9S — SEAT SR — 3E RAI]. 在 图 5.4 HH, S SARI AER 
FDH IF A ZEE AE Mai WAA. HTEUE SI, T8 —3ERE AT SS PUR AEEA, HIE 
用 来 描述 所 有 特征 。 第 一 主 成 分 主要 与 Murder 和 UrbanPop HK. 
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主 成 分 分 析 是 数据 分 析 中 比较 第 用 的 一 种 方法 ， 有 看 非 肖 广泛 的 应 用 。 主 成 分 分 析 的 
要 点 之 一 是 判断 主 成 分 的 个 数 ， 毕 竟 最 党 使 用 它 的 场景 是 数据 的 降 维 ， 这 种 方法 可 以 用 一 
组 不 相关 要 量 来 普 代 大 量 相关 的 变量 ， 进 而 简化 分 析 过 程 。 态 外 ， 本 章 还 介绍 了 及 语言 
主 成 分 分 析 的 实现 。 
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第 6 章 多 维 缩放 


多 维 缩放 在 数据 分 析 中 非常 常用 , 常常 用 于 数据 探索 的 过 程 中 。 一般 而 言 ， 
二 维 数据 通过 散 点 图 展示 ， 三 维 数据 通过 3D 图 进行 展示 ， 更 高 维度 的 数据 很 
难 使 用 图 形 展示 。 对 于 更 高 维度 的 数据 ， 可 以 使 用 多 维 缩放 的 方法 进行 降 维 ， 
然后 进行 可 视 化 展示 。 

ZERE MDS) 是 一 种 非 线性 投影 类 方法 ， 可 用 于 降 维 ， 可 用 于 
高 维 数据 集 的 数据 可 视 化 。 

多 维 缩放 是 一 种 将 任何 类 型 的 对 象 之 间 的 相似 度 作为 输入 并 将 其 转换 到 
低 维 空间 的 技术 。 相 似 度 用 于 度量 两 个 对 象 有 多 人 么 相似 或 多 人 么 不 同 ， 或 者 这 
种 对 象 的 任何 相似 性 。 主 要 输出 为 低 维 空间 的 点 。 例 如 ， 将 高 维 数 据 缩减 为 2 
维 ， 这 样 其 就 可 以 通过 二 维 图 形 进 行 展示 。 另 外 ， 主 成 分 分 析 也 是 一 种 维度 
缩减 的 方法 。 


6.1 MDS 的 工作 原理 


MDS 算法 试图 在 低 维 空间 中 找到 数据 之 则 的 关系， 并 且 期 望 低 维 空间 的 
数据 间 的 距离 尽 可 能 地 近似 于 数据 原始 的 相似 性 度量 。 使 用 这 个 方法 的 好 处 
是 有 助 于 对 融 维 数据 进行 可 视 化 。 

对 于 其 工作 原理 ， 背 先 给 定 n 个 d 维 的 数据 样本 : 

[Xo Es c 3. 
[da d 69 3 
Xm Xn 77 Xa 


XX n NEFER ZERIE RIE FS RT AURRA FERE: 
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Oil Ó, "es Bm 
ax)-| ^m Uo 
Ô, Oo Ôn 
RP, o, (X) = o, 是 样本 ; 与 样本 /之 间 的 欧 氏 距离 MDS 的 基本 原理 是 在 一 个 低 维 空间 中 ， 
将 n 个 数据 租 入 这 个 空间 中 ， 使 得 数据 很 此 之 间 的 相似 度 能 够 尽 可 能 地 保留 。 如 果 这 个 低 
维 的 空间 是 2 维 或 者 3 维 ， 则 可 以 绘制 出 数据 的 可 视 化 结果 。 假 设 将 这 于 个 样本 上 映射 到 新 
的 己 维 空间 中 ， 有 映射 成 的 矩阵 形式 如 下 。 


Yii Yiz Yip 
y= Xn és Yip 
Jn Yna e Jw 


AF, p 应 该 远 小 于 4d， 一 般 选 择 2 或 者 3。 通常 而 言 ，MDS 的 目标 函数 是 


s(x)- Y3(s-]»-» 
以 上 就 是 关于 MDS 的 基本 原理 ， 下 面 会 介绍 MDS 在 及 语言 中 的 实现 。 


6.2 在 民 语 言 中 实现 MDS 


在 这 一 部 分 ， 用 到 的 数据 集 是 eurodist 数据 集 ， 这 个 数据 集 提供 了 欧洲 21 个 城市 之 间 
的 道路 距离 (以 km 为 单位 ) 。 数 据 来 自 剑 桥 大 学 百科 全 书 。 


data (eurodist) 


eurodist 

## Athens Barcelona Brussels Calais Cherbourg Cologne 
## Barcelona zia 

14 Brussels 2963 1318 

$4 Calais SUB 1325 204 

$45 Cherbourg 3339 1294 583 460 

## Cologne 2162 1498 206 409 pas 
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在 有 语言 中 ， 篆 使 用 的 多 维 缩放 方法 有 3 T0. stat 包 中 的 cmdscale( ) 是 经 典 的 Torgerson- 
Gower 纵 放 方法 。 对 于 经 典 的 多 维 缩放 ， 其 尽 可 能 保留 点 之 间 的 原始 距离 上 度量。 原始 的 度 
wE A LAE MDS 图 形 中 的 拟 合 距离 。 经 典 Torgerson-Gower 缩放 方法 适用 于 定量 数据 。 
MASS 包 中 的 isoMDS( ) 和 sammon( ) 是 两 种 非 度 量 的 多 维 见 放 方法 ， 对 于 非 度 量 缩放 ， 距 
离 值 的 度量 不 是 重要 的 或 有 意义 的 值 ， 而 是 与 其 他 对 象 之 间 的 距离 相关 的 值 。 例 如 ， 如 果 
分 开 的 对 象 1 和 对 象 5 的 距离 在 原始 距离 数据 中 排名 第 五 ， 那 么 它们 也 应 该 在 MDS 配置 
中 排名 第 五 。 其 中 ，iso MDS( ) 用 于 计算 Kruskal 的 非 度量 多 维 缩放 ，sammon( ) 用 于 计算 
sammon HJ3EZE TERRI. ZH eurodist 数据 集 实现 这 3 种 方法 。 

首先 执行 经 典 的 Torgerson-Gower 缩放 。Torgerson-Gower 缩放 是 一 种 经 典 的 多 维 缩放 
方法 ， 这 个 方法 是 以 数据 的 相似 度 作 为 实际 的 输入 ， 输 出 结果 是 一 个 坐标 和 矩阵 。 在 这 里 使 
用 cmdscale( ) 函数 进行 缩放 ， 第 一 个 参数 是 4， 对 应 的 是 数据 的 相似 度 定 阵 ，k 表示 降 到 2 
维 空 间 ，eig=T， 表 示 返 回 特征 值 。 


mds «- cmdscale(d = eurodist,k-2,eig-T) 


mds 

## Spoints 

DES E IN Dx] 

## Athens 2290.274680 1798.80293 

## Barcelona —pm EN EL 546.81148 

## Brussels 59.183341 -367.08135 

$4 Calais -82.845973 -429.91466 

## Cherbourg -352.499435 -290.90843 

## Seig 

## [1] 1.953838e+07 1.185656e+07 1.528844e+06 1.118742e+06 
7.893472e+05 

tid [6] 5.816552e+05 2.623192e+05 1.925976e+05 1 .450845e+05 
1.079673e+05 

## [11] 5.139484e+04 -3.259629e-09 -9.496124e+03 -5.305820e+04 


-1 .322166e+03 

Tr [16] =265733460e+09 -3,326719et05 br.l6252361t09 =9,191491etü05 
-1.006504er06 

## [21] -2.251844e-*06 


## Sx 
d£ NULL 


## Sac 
## [1] 0 


$4 SGOF 
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## [1] 0.7537543 0.8679134 


将 数据 的 二 维 坐标 进行 绘图 展示 ， 如 图 6.1 所 示 。 


plot (mds$points) 
text (mds$points,rownames (mds$points)) 


Gibraltar 


Madrid 


Lisbon 


Barcelon 


Torgerson-Gower 


Rome 


a , 
Marseilles Milan 
Lyda 


eneva |... Mienna 
Munich 


Chert 
i i ne 
Ei. of Holland 


Hamburg 


Copenhagen 


Stockholm 


Athens 


图 6.1 MDS 可 视 化 


在 图 6.1 中 使 用 的 方法 是 经 典 的 多 维 缩放 方法 。 这 样 束 可 以 将 原始 的 21 维 数 据 转 换 成 
为 2 维 坐 标 ， 并 通过 二 维 图 形 展示 出 来 。 接 下 来 使 用 非 度量 多 维 缩放 方法 ，isoMDS( ) 的 第 


一 个 参数 是 数据 集 的 距离 矩阵 ，K 表示 纵 放 的 维度 。 
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library (MASS) 

mds «- isoMDS(eurodist,k = 2) 
## initial value 7.505733 

## final value 7.505688 

## converged 

head (mds$points) 

T [,1] 

## Athens 2290.27265 1798 

## Barcelona -825.38264 546 

## Brussels 59.18391 -367 

$4 Calais -82.84595 -429. 
## Cherbourg -352.50146 -290. 
14 Cologne 293.69051 -405 

plot(mds$points, type = «n») 


[,2] 


.8018 
2s 
EHE 


zd ses 
9102 


HIE S 


text (mds$points,rownames (mds$points)) 


这 里 获得 了 每 一 条 数据 的 二 维 坐 标 ， 然 后 利用 二 维 坐 标 绘制 散 点 图 ， 就 可 以 对 原始 数 
据 进 行 二 维 可 视 化 展示 ， 如 图 6.2 所 示 。 


isoMDS 


Rome 


Gibraltar Barcelona | " 
Madrid Marseilles ian 


Lydagneva 


Cherb 吕 和 
tspe, 


Hamburg 


. Vienna 
Lisbon unich 


Copenhagen 


Stockholm 
isoMDS 非 度量 缩放 
图 6.2 isoMDS 缩放 图 
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Athens 


在 图 6.2 中 使 用 的 方法 是 非 度 量 缩放 方法 。Sammon( ) 的 参数 与 isoMDS 类 似 ， 第 一 个 
参数 是 原始 数据 的 距离 窍 阵 ， 第 二 个 参数 是 盎 放 的 维度 。Sammon 缩放 图 如 图 6.3 HZR 


mds <- sammon(eurodist,k = 2) 
## Initial stress E 


ce 


SIUS 


二 


head (mds$points) 
Td 

## Athens 1921. 
## Barcelona -759. 
## Brussels 80. 
## Calais -106. 
$4 Cherbourg -484. 
## Cologne 2n 


plot(mds$points, type 
text (mds$points,rownames (mds$points)) 


[1] 
91110 
75984 
19883 
20671 
41286 
33239 


BOTeerse nm 
## stress after 20 iters: 0. 


1830. 

606. 
-443. 
= 
-4ATT. 
-445. 


«n») 


SEN 
00941, magic 


[,2] 
4309 
0879 
3660 
UN 
3046 
0549 
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sammon 
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Stockholm 


图 6.3 sammon 缩放 图 


图 6.3 使 用 的 方法 是 非 度量 缩放 方法 。 从 图 6.2 与 图 6.3 可 以 看 出 ，sammon 与 isoMDS 
的 缩放 结果 非常 相似 ， 但 这 两 种 非 扩 度 缩放 的 结果 并 不 是 完全 一 样 的 ， 绊 果 有 微小 的 

以 上 是 3 种 比较 利用 的 多 维 绷 放 的 实现 方法 。 另 外 ，R 语言 中 还 提供 了 许多 可 以 构建 
MDS 模型 的 方法 ， 包 括 : 

€ smacofSym(), % Á smacof 包 。 

€ wcmdscale( ), A Á vegan 包 。 

€ pco(), % Á ecodist €, 

€ pco( )， 来 自 labdsv 包 。 

图 6.1 一 图 6.3 所 展示 的 图 形 允 许 表 示 二 维 空间 中 城市 之 间 的 距离 。 但 是 ， 该 表示 与 欧 
洲 的 地 理 地 图 不 同 : 雅典 位 于 北部 ， 而 斯 德 哥 尔 摩 位 于 南部 。 这 种 “ 异 和 ”反映 了 这 种 表 
现形 式 与 实际 的 认 知 有 所 出 入 。 下 面 使 用 其 他 4 种 方法 实现 MDS， 比 较 其 中 存在 的 差异 。 

首先 使 用 的 是 vegan 提供 的 wcmdscale( ) 函数 ， 该 函数 是 带 有 权重 的 经 典 缩放 方法 。 
图 数 第 一 个 参数 是 数据 集 ， 第 二 个 参数 是 缩放 的 维度 。 函 数 中 的 参数 w 用 于 指定 权重 ， 如 
果 权 重 是 1， 那 么 此 时 与 普通 的 经 典 多 维 缩放 方法 没有 区 别 。 如 条 指 定 了 权重 ， 那 么 高 权 
草 的 点 比 低 权重 的 点 对 结果 有 更 强 的 影 啊 。 下面 随机 生成 一 组 权重 , 然后 构建 模型 , 如 图 6.4 


所 示 。 


library (vegan) 

library (ecodist) 

library (labdsv) 

library (ape) 

library (ade4d) 

library (smacof) 

mds2 = wcmdscale(eurodist, k=2, w-runif (21)) 

# plot 

plot (mds2[,1], mds2[,2], type = "n", xlab = "", ylab S 
axes = FALSE, main = "wcmdscale (vegan)") 

text(mds2[,1], mds2[,2], labels(eurodist), cex = 0.9, xpd = TRUE) 


wcmdscale (vegan) 


Athens 


Rome 


Gibraltar Barcelona 


， Marseilles Milan 
Lisbon Madri LyaBsneva : 
MuniclVienna 


Cherboi «sels 
ne 
ec of Holland 


Hamburg 
Copenhagen 


Stockholm 


图 6.4 wocmdscale (vegan) 缩放 图 


图 6.4 使 用 的 方法 是 权重 的 经 典 缩放 方法 。 下 面 使 用 ecodist 包 提 供 的 pco( ) 函数 进行 
多 维 缩放 ， 其 参数 与 其 他 图 数 关 似 ，pco( ) 与 主 成 分 分 析 非 钊 相似 ， 但 允许 使 用 任何 不 相似 
度量 。pco(ecodist) 如 图 6.5 所 示 。 


mds3 = pco(eurodist)eoe 

# plot 

plot(mds3$points[,1], mds3$points[,2], type = "n", xlab = "", ylab = 
axes = FALSE, main = "pco (ecodist)") 

text(mds3Spoints[,1], mds3S$points[,2], labels(eurodist), 
cex = 0.9, xpd = TRUE) 
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pco (ecodist) 
Athens 


Home 


Gibraltar Barcelona | | 
Madrid —— tma " 
y à; Munic ienna 
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Stockholm 


图 6.5 pco(ecodist) 缩放 图 


在 图 6.5 "P, pco (ecodist) 是 这 帐 图 的 名 称 ， 表 示 使 用 的 方法 是 主 坐 标 分 析 。 
labdsv 包 同 样 提 供 了 pco( )。pco(labdsv) 缩放 图 如 图 6.6 所 示 。 


mds4 = pco(eurodist, k = 2) 

# plot 

plot(mds4Spoints[,1], mds4Spoints[,2], type = "n", xlab = "", ylab = 
axes = FALSE, main = «pco (labdsv)») 

text(mds4Spoints[,1], mds4S$points[,2], labels(eurodist), 
cex — 0.9, xpd = TRUE) 
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图 6.6 pco(labdsv) 缩放 图 


图 6.6 使 用 的 方法 是 主 坐 标 分 析 。 
smacof EEEH] smacofSym( ) 是 一 种 相 开 窍 阵 多 维 缩放 方法 。SmacofSym (smacof) 4 
放 图 如 图 6.7 所 示 。 
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mds5 = smacofSym(eurodist, ndim - 2) 
# plot 
plot (mds5$conf[,;,1]; mds5$conf[,;,2],;, type = "n", xlabD = ""; ylab = "T"; 


axes = FALSE, main = "smacofSym (smacof)") 
text (mds5$conf[,1], mds5$conf[,2], labels(eurodist), 
cex = 0.9, xpd = TRUE) 


smacofSym (smacof) 
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图 6.7 smacofSym(smacof) 缩放 图 


在 图 6.7 中 ，smacofSym (smacof) 表示 使 用 的 方法 是 相 开 矩阵 多 维 缩放 方法 。 从 图 形 上 
来 观察 ， 这 些 结果 都 非常 相似 ， 但 是 这 些 多 维 缩放 方法 的 实际 结果 都 存在 一 定 的 差异 。 通 
常 而 言 ， 使 用 最 多 的 方式 是 经 典 的 Torgerson-Gower 缩放 。 


6.3 MDS Hy fira 


MDS 评 佑 的 基准 是 PCA。 不 是 因为 它们 都 可 以 降 维 或 者 经 典 形 式 的 MDS 类 似 于 
PCA, MERX PCA 普遍 存在 。 每 个 人 都 知道 PCA， 它 是 数据 科学 课程 中 非常 常见 的 主题 。 
但 是 PCA 存在 严重 的 缺点 ， 因 为 PCA 需要 满足 一 些 假设 。 

第 一 ， 明 确 假设 输入 数据 的 高 维 结构 〈 拓 扑 ) 可 以 以 线性 方式 减少 。 第 二 ， 如 果 数 据 
集中 的 对 象 不 包含 像 异 常 值 这 样 的 奇怪 数据 (这 会 引入 影响 投影 质量 的 杠杆 效应 〉， 则 这 
些 技术 的 效果 很 好 。 第 三 ， 如 果 多 变量 空间 中 的 相关 维 数 〈 重 要 主 成 分 的 数量 或 者 说 数学 
上 输入 矩阵 的 实际 等 级 ) 仍然 很 高 ， 那 么 这 些 变换 技术 的 可 视 化 能 力 就 会 大 大 降低 。 
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H A. PCA 试图 找到 变量 之 间 隐 藏 的 线性 相关 性 。 因 此 , 如 果 变 量具 有 非 线性 关系 ， 
则 该 技术 不 能 很 好 地 执行 ， 并 且 实 际 上 它 可 能 具有 误导 性 ， 因 为 它 不 会 尝试 保留 数据 的 拓 
扑 结 构 。 即 使 在 一 些 变 量 线性 相关 的 数据 集中 ， 由 于 其 正 交 变换 ，PCA 也 表现 不 佳 。 当 然 ， 
这 里 不 是 在 谈论 内 核 PCA， 而 是 关于 常用 的 或 误 用 的 PCA. 

相反 ，MDS 试图 保留 数据 的 拓扑 结构 ， 并 且 它 本 质 上 是 非 线 性 变换 。 因 此 ，MDS 不 
仅 可 以 以 比 PCA 更 可 靠 的 方式 降低 维 数 ， 而 且 不 受 异常 值 的 负面 影响 。 实 际 上 ， 正 如 在 本 
章节 中 所 做 的 那样 ， 可 以 使 用 MDS 来 检测 异常 值 。 

但 是 ，MDS 在 实际 使 用 中 存在 一 些 缺 点 ， 其 一 是 该 方法 对 初始 点 的 敏感 性 问题 。 其 二 
是 器 数据 集 谎 加 新 观察 数据 的 问题 ， 因 为 该 方法 需要 重新 执行 其 所 有 过 程 以 租 找 新 数据 ， 
因此 每 次 添加 新 的 数据 都 会 造成 大 量 的 计算 。 此 外 ， 对 于 大 型 数据 集 ， 似 乎 需要 使 用 压缩 
方法 来 减少 图 形 上 数据 点 的 数量 ， 人 否则 图 形 会 过 度 拥 挤 。 


6.4 总 4 


多 维 缩放 〈MDS) 是 高 维 对 象 到 低 维 空间 ( 通 当 是 二 维 图 形 ) 的 非 线性 投影 ， 可 尽 可 
能 多 地 你 留 对 象 的 成 对 距离 。 因 此 ，MDS 是 一 种 拓扑 保留 方法 ， 可 用 于 降 维 ， 从 而 实现 数 
据 可 视 化 。 本 章 介 绍 了 多 维 绾 放 的 基本 概念 ， 多 维 缩放 本 质 上 是 数据 的 非 线形 变换 ， 试 图 
在 低 维 空间 中 找到 数据 之 间 的 关系 ， 并 且 期 望 低 维 空间 的 数据 间 的 距离 尽 可 能 地 近似 于 数 
据 原 始 的 相似 性 度量 ; 然后 介绍 在 R 语言 中 如 何 实现 MDS， 介 绍 了 R 语言 中 最 音 用 的 实 
现 方 式 ， 当 然 ， 在 R 语言 中 还 有 更 多 关于 MDS 的 内 容 ， 如 superMDS， 其 提供 了 一 种 更 高 
级 的 多 维 缩放 方法 ， 但 是 这 些 内 容 不 在 本 章 的 讨论 范围 之 内 。 
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回归 模型 是 统计 模型 中 最 常用 的 模型 ， 可 以 这 样 说 ， 基 本 上 如 果 问 题 是 
回归 问题 ， 则 通常 第 一 个 想到 的 就 是 建立 回归 模型 。 回 归 模 型 是 一 种 统计 学 
上 分 析 数 据 的 方法 ， 用 于 分 析 两 个 或 者 多 个 特征 之 间 是 否 存在 相关 关系 及 相 
关头 系 强 度 、 方 向 等 问题 ， 通 第 用 于 描述 数据 之 间 的 线性 关系 。 本 革 将 介绍 
回归 模型 的 基本 概念 ， 以 及 使 用 及 语言 实现 回归 模型 。 


7.1 线性 回归 模型 概述 


线性 回归 是 连续 数据 的 有 监督 建 模 技术 ， 可 根据 输入 数据 集 生 成 啊 应 。 
它 用 于 解释 单个 变量 Z( 称 为 啊 应 (输出 或 因 变 量 ) ) 与 一 个 或 多 个 预测 变量 ( 输 
和 入， 独立 或 解释 变量 ) 之 间 的 线性 关系 。 

如 条 仅 考 虑 单个 变量 成 则 这 和 吓 一 个 最 向 单 的 回归 问题 ， 如 条 包含 多 个 
变量 ， 则 是 多 元 回归 问题 的 形式 。 

在 本 节 中 ， 首 先 分 析 最 简单 的 线性 回归 ， 即 一 个 啊 应 变量 和 单个 预测 变 
量 的 情况 。 基 本 等 式 如 下 : 

Y =p, +pX+e 

AP. B,. Bo ERIRARRRIE, RRE REM. 

线性 回归 的 假设 如 下 。 

e 线性 : 全 和 了 之 间 的 关系 是 线性 的 。 

e 同方 差 性 : 对 于 任何 给 定 的 对 值 ， 残 差 的 方差 是 相同 的 。 

e 独立 性 : 随机 误差 彼此 不 相关 。 

e FÆ: 随机 误差 服从 0 均值 同方 差 的 正 态 分 布 。 

注意 : 如 果 关 于 模型 线性 的 基本 假设 与 现实 不 付 ， 则 会 引入 误 产 。 理 想 
情况 下 ， 误 差 应 该 是 随机 的 ， 不 依赖 于 任何 输入 特征 。 它 可 以 被 认为 是 回归 
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模型 无 法 解释 的 了 的 一 部 分 。 


7.2 Œ RASAP 


本 节 所 用 到 的 数据 来 自 CRAN 包 DAAG 的 AIS 数据 集 : 它 是 具有 202 个 观察 值 和 13 
个 变量 的 数据 特征 。 它 代表 了 一 组 澳大利亚 运动 员 的 研究 数据 ， 用 于 了 解 血 液 的 某 些 特征 
如 何 随 运 动 体型 和 性 别 类 型 而 变化 。 

以 下 是 数据 集 的 概述 (查看 数据 集 的 前 3 íT): 


library (DAAG) 

head(ais, n=3) 

## rcc wcc hc hg ferr bmi ssf pcBfat lbm ht wt sex sport 
2 60 20.56 109.1 19.75 63.32 195.9 78.9 PEE 
Ball 

## 2 4.41 8.3 38.2 12.7 68 20.67 102.8 21.30 58.55 189.7 74.4 f B_ 
Balil 

## 3 4.14 5.0 36.4 11.6 2r 2r Bg 6 Ta, S0 T9. 0 EBT 
Ball 


下 列 是 分 析 所 需要 的 一 些 包 、。 


library (e1071) 
library (plyr) 
library (gaplot2) 


现在 可 以 对 原始 数据 集 取 一 个 子 集 ， 并 为 简单 回归 分 析 选 择 变量 和 观察 值 : 

e 只 考虑 一 种 性 别 类 型 ( 男性 ， 以 便 拥 有 更 加 同 质 的 群体 ) 。 

e 练习 运动 之 间 没 有 区 别 ( 假设 对 于 每 项 运动 ， 血 液 特征 和 体型 没有 实质 性 差异 ) 。 

e 仅 关注 血液 特征 ( 忽略 体型 ) ,目标 是 建立 一 个 简单 的 回归 模型 ， 通 过 与 血红 蛋白 
(hg) 建立 统计 学 上 显著 的 线性 关系 ， 可 用 于 预测 血细胞 比 容 (hc) 。 

以 下 代码 对 数据 进行 简单 的 处 理 。 

ais2 <- subset (ais, sex--"m») 

a1583 = a1s2[,c(3,4)] 


newdata <- rename(í(ais3, c("hg"-2"HEMAGLOBIN", "hc"-z"HEMATOCRIT")) 
str (newdata) 
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第 / s sia 


"uno VENE E Sena 102 obs. of 2 yariables: 


Td $ HEMATOCRIT: num 46.8 45.2 46.6 44.9 46.1 45.1 47.5 45.5 48.6 


44.9 


TIT > HEMAGLOBIN: num 5529 5552 15 8 15 15.60 19.2 16.3 L5 2 16.959 75:5 


非常 重要 的 一 件 事情 是 ， 检 验 数 据 集中 是 否 存 在 缺失 值 : 


colSumsí(is.na(í(newdata)) 
i4 HEMATOCRIT HEMAGLOBIN 
P4 0 0 


两 列 都 没有 显示 NA 值 。 


注意 : 通 营 ， 如 朱 数 据 集中 缺少 许多 值 ， 则 有 效 样本 可 能 会 六 小 而 无 法 产生 重要 结 打 。 


下 面 是 新 数据 集 的 单 变量 摘要 信息 : 


summary (newdata) 

ui HEMATOCRIT HEMAGLOBIN 
$4 Min. :40.30 Min. A ENSE 
## lst Qu.:44.23 lst Qu.:14.93 
## Median :45.50 Median :15.50 


## Mean -45,65 Mean :15,55 
## 3rd Qu.:40.80 Bru reum 
i4 Max. :59.70 Max. :19.20 


72. 图形 分 析 


1. 箱 线 图 


使 用 boxplot( ) 绘制 箱 线 图 ， 数 据 显 示 为 四 分 位 数 ， 并 允许 检测 任何 异常 值 。 特 征 


HEMAGLOBIN 与 HEMATOCRIT 的 箱 线 图 如 图 7.1 所 示 。 


par (mfrow=c (1, 2)) 

boxplot (newdatasHEMAGLOBIN, col = "yellow", border-"blue", 
main = "HEMAGLOBIN boxplot", 
ylab = "g per decaliter") 


boxplot(newdataSHEMATOCRIT, col = "orange", border-"blue", 
main = "HEMATOCRIT boxplot", 
ylab = "percent values") 
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图 7.1 特征 HEMAGLOBIN 5 HEMATOCRIT 的 箱 线 图 
从 图 7.1 中 可 以 发 现 ， 这 里 存在 一 些 非常 偏离 样本 平均 值 的 数据 点 ， 这 些 数据 可 能 是 


异种 值 。 下 面 征 天 于 数据 的 开 第 值 的 检测 。 


u 


boxplot.stats (newdataşHEMAGLOBIN) $out 
## [1] 18.0 19.2 18.5 17.7 
boxplot.stats (newdata$HEMATOCRIT) $out 
## [1] 40.3 59.7 

注意 : ABRE AS IRL /斜率 。 
2. 直方 图 


使 用 ggplot2 包 绘 制 直方 图 ， 直 方 图 显示 数值 数据 的 分 布 ， 如 图 7.2 和 图 7.3 所 示 。 


qplot(HEMAGLOBIN, data = newdata, geom-"histogram", binwidth=0.5, 
hnll-I("azure4"), colsI("azure3")) + 


labs(title = "HEMAGLOBIN") + 
Ut 
labs(x -"Concentration (in g per decaliter)") + 
labs(y = "Frequency") 十 


5 y oon ini {breaks c(0,5,10,15,20,25,30,35,40,45,50), minor 
breaks = NULL) + 
scale x continuous (breaks = c(10:25), minor breaks = NULL) + 
geom vline(xintercept - mean(newdataSHEMAGLOBIN), show guide-TRUE, 
COTOr 
—-"red", labels="Average") + 
geom vline(xintercept = median(newdataSHEMAGLOBIN), show guide-TRUE, 
CO UAT 
="þlue", labels="Median") 
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25s 
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en 
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浓度 (g/10L) 
图 7.2 HEMAGLOBIN 直方 图 
qplot (HEMATOCRIT, data = newdata, geom-"histogram", binwidth-1l, 
filleI("azure4"), col-I("azure3")) + 
labs(title = "HEMATOCRIT") 十 
idees gdrssentEgurdle — dbewpewwe c9exm dug s - 8 0 d 
labs(x -"Percent values") - 
labs(y = "Frequency") 十 
Scale y continuous(breaks - c(0,5,10,15,20,25), minor breaks - NULL) 


scale x continuous (breaks = c(30:65), minor breaks = NULL) + 
geom vline(xintercept = mean(newdataSHEMATOCRIT), show guide-TRUE, 
color 
="red", labels="Average") + 
geom vline(xintercept = median(newdataS$HEMATOCRIT), show guide-TRUE, 
Color 
="blue", labels-"Median") 
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图 7.3 HEMATOCRIT 直方 图 

在 图 7.2 和 7.3 F, x 轴 都 表示 对 应 特征 的 不 同 值 ，y 轴 表 示 特 征 不 同 值 的 频数 。 
HEMAGLOBIN 和 HEMATOCRIT 分 别 表 示 了 这 两 幅 图 是 天 于 这 两 个 特征 的 直方 图 。 注意 ， 
图 7.3 与 图 7.2 是 特征 HEMAGLOBIN 与 特征 HEMATOCRIT 的 直方 图 , 其 中 深 色 垂直 线 CIE 
侧 直 线 ) 显示 中 值 ， 浅 色 和 对 直线 AMAR) 显示 平均 值 。 

3. 密度 图 

首先 使 density( ) 计算 数据 的 密度 值 ， 然 后 使 用 plot( ) 绘制 密度 图 ， 通 过 密度 图 可 检查 
分 布 的 形状 ， 如 图 7.4 所 示 。 


par (mfrow=c (1, 2)) # it divides graph area in two parts 


plot(density(newdataSHEMAGLOBIN), main-"density: HEMAGLOBIN", 
ylab2"Frequency", 
sub-paste("Skewness:", round(el071::skewness (newdataSHEMAGLOBIN), 
21) 
polygon (density (newdataSHEMAGLOBIN), col-"yellow") 


plot(density(newdataSHEMATOCRIT), main-"density: HEMATOCRIT", 
ylab-2"Frequency", 

sub-paste("Skewness:", round(el071::skewness(newdataS5HEMATOCRIT), 
zr 

polygon (density (newdataSHEMATOCRIT), col-2"orange") 
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B] 7.4 特征 HEMAGLOBIN 5E HEMATOCRIT 的 密度 图 
在 图 7.4 中 ,x 轴 有 表示 对 应 特征 的 不 同 值 , >” 轴 表示 特征 不 同 值 的 频率 。 特 征 的 密度 
图 最 好 呈正 态 分 布 ， 而 不 是 侦 糙 的 〈《 回 左 或 回 右 ) ， 图 7.4 中 的 结果 显示 数据 近似 呈正 态 
4] 48 a 
4. Ba E 
使 用 ggplot2 包 绘 制 敌 点 图 ， 敌 点 图 的 可 视 化 表明 依赖 ( 啊 应 ) 变量 和 独立 〈 预 测 变量 ) 
变量 之 间 是 否 存 在 任何 线性 关系 ， 如 图 7.5 所 示 。 
qplot(HEMAGLOBIN, HEMATOCRIT, data = newdata, 
main = "HEMAGLOBIN and HEMATOCRIT relationship") + 
theme (plot .title = element text(hjust = 0.5)) + 
sjan selene el ee eda Bi brc iar rs 


scale y continuous (breaks = c(30:65), minor breaks = NULL) + 
See mE ma a ANUE) 


T) 
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图 7.5 特征 HEMAGLOBIN 5 HEMATOCRIT 的 散 点 图 


图 7.5 显示 血红 重 日 水 平和 血细胞 比 容 上 自分 比 之 则 存在 示 种 程度 上 的 强 天 系 〈 较 高 的 


血红 很 白 值 对 应 较 高 的 血细胞 比 容 值 ) 。 


7122 ”建立 线性 模型 


下 面 建立 一 个 线性 模型 ， 看 看 这 个 模型 与 观察 数据 的 拟 合 程度 。 以 简单 的 形式 为 例 ， 


要 解决 的 等 式 如 下 : Hematocrit = B, + BHemaglobin 。 其 中 ， 截 距 是 血红 和 蛋白 水 平 的 预期 血 
细胞 比 容 值 ， 斜 牵 是 与 血红 和 白水 平 的 单位 增加 量 相 关 的 血细胞 比 容 的 增加 量 。 


这 里 依然 使 用 ggplot2 绘制 图 形 ，stat smooth( ) 用 于 添加 拟 合 曲线 ， 其 中 method 用 于 


日 定 使 用 什么 方式 拟 合 散 氮 图 ， 这 里 指定 使 用 线性 回归 进行 拟 合 ， 如 图 7.6 所 示 。 


<) 


qplot (HEMAGLOBIN, HEMATOCRIT, data = newdata, 


main = "HEMAGLOBIN and HEMATOCRIT relationship") + 
theme (plot.title = element text(hjust = 0.5)) + 
stat smooth (method="1m", col="red", size-1) + 


geom _ point (colour = "blue", size = 1.5) + 
scale y continuous Ustedes oI oalr mmr breake NULL F 
scale x continuous (breaks = c(10:25), minor breaks = NULL) 
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7.6 特征 HEMAGLOBIN 5 HEMATOCRIT 的 拟 合 结果 

从 图 7.6 可 以 看 出 ， 模 型 的 拟 合 情 况 比较 好 。 理 想 情况 下 ， 回 归 线 应 尽 可 能 接近 观察 
到 的 所 有 数据 点 。 平 滑 设置 为 0.95 的 置信 和 度 〈 默 认 情 况 下 ) 。 

另 一 个 有 趣 的 可 能 性 是 创建 一 个 名 为 HEMAGLOBIN CENT 的 新 变量 ， 它 将 变量 
HEMAGLOBIN 的 值 集 中 在 其 平均 值 上 ， 也 就 是 将 数据 标准 化 ， 这 对 于 对 其 截 距 估计 进 
行 有 意义 的 解释 很 有 有 用。 下面 的 代码 首先 对 数据 进行 标准 化 ， 然 后 使 用 ggplot2 绘制 散 点 
图 及 进行 模型 拟 合 。 标 准 化 后 的 HEMAGLOBIN_CENT 与 HEMATOCRIT 的 拟 合 结 果 如 
图 7-7 所 示 。 


set.seed(123) 
HEMAGLOBIN CENT = scale(newdataSHEMAGLOBIN, center-TRUE, scale-FALSE) 


qplot(HEMAGLOBIN CENT, HEMATOCRIT, data = newdata, 
main = "HEMAGLOBIN CENT and HEMATOCRIT relationship") 十 
theme(plot.title = element text (hjust = 0.5)) + 
stat smooth (method-"lm", col-"red", size-1) + 


eps Tn 
SE a Sree piee depeiessu qe es Te bebo sn ea demere e h Bb Eos 
= 


人 minor breaks — NULL) 
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El 7.7 标准 化 后 的 HEMAGLOBIN_CENT 5 HEMATOCRIT 的 拟 合 结果 

汇总 统计 信息 对 于 解释 线性 模型 输出 的 关键 组 件 非常 有 用 。 下 面 的 代码 使 用 lm( ) 构建 
线性 模型 ， 以 HEMATOCRIT 为 模型 的 因 变 量 ， 以 HEMAGLOBIN CENT 为 模型 的 自 变 量 。 
构建 好 模型 之 后 ， 使 用 summary 查看 模型 的 详细 信息 : 


modi = lm(HEMATOCRIT ~ HEMAGLOBIN CENT, data = newdata) 
summary (modl) 


iE 
UE 
ui 
## 
FH 
iub 
iE 
UE 
id 
## 
FH 
bu 
iE 
UE 
uk 


Dalis 
lm(formula = HEMATOCRIT ~ HEMAGLOBIN CENT, data = newdata) 


Residuals: 


Min 10 Median 30 Max 
-3.4183 -0.7043 -0.0072 0.6049 5.0765 
Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) 45.6500 0.1140 400.35 «2e-1l6 *** 
HEMAGLOBIN CENT IEEE s A etn 20.06 «2e-16 *** 
sionit. Codes: Q UZA (H OOT TEKI sos cras ats 


## Residual standard error: 1.152 on 100 degrees of freedom 
## Multiple R-squared: 0.801, Adjusted R-squared: 0.799 
## F-statistic: 402.4 on 1 and 100 DF, p-value: < 2.2e-16 


模型 的 详细 信息 包括 : 

C) 残 差 。 残 差 用 于 度量 预测 的 响应 值 是 否 接 近 模 型 预测 的 响应 值 。 在 目前 的 情况 下 ， 
残 差 的 分 布 是 非常 相似 的 ( 残 差 的 进一步 分 析 将 在 后 面 讨论 ) 。 

(2) 估算 系数 。 估 算 系 数 是 模型 结果 的 系数 (Coefficients) 。 第 一 行 是 模型 的 
截 距 ， 当 在 整个 数据 集中 考虑 HEMAGLOBIN 的 平均 值 时 ， 在 当前 情况 下 表示 预期 的 
HEMATOCRIT 值 为 45.6。 第 二 行 是 斜率 项 ， 并 且 在 当前 情况 下 显示 每 个 HALAGLOBIN 增 
加 1 会 导致 HEMATOCRIT 增加 2.46. 

(3) 标准 误差 。 标 准 误差 描述 了 模型 的 预测 结果 和 模型 的 真实 结果 之 间 的 差别 。 

注意 : 理想 情况 下 ， 数 字 较 小 是 回归 分 析 中 的 最 佳 情况 。 另 外 ， 还 可 以 使 用 标准 误差 
来 设置 置信 区 间 。 

(4) 显著 性 。 对 模型 显著 性 的 检验 表明 ， 变 量 之 间 存 在 线性 天 系 。 这 可 以 通过 行 尾 
的 “*###” 来 直观 地 解释 。 这 个 级 别 是 一 个 阅 值 ， 用 于 表示 真实 的 发 现 ， 而 不 是 单独 的 偶然 
发 现 。 

对 于 每 个 估计 的 回归 系数 ， 变 量 的 p 值 Pr (> | 1|) 提供 给 定 估计 值 的 真实 系数 为 零 的 
概率 的 估计 。p 值 附近 的 星 数量 越 多 ， 变 量 承 越 显著 。 

在 存在 p 值 的 情况 下 ， 存 在 与 其 相关 的 假设 检验 。 在 线性 回归 中 ，Null 假设 是 与 变 
量 相 关 的 系数 等 于 零 。 相 反 ， 蔡 代 假 设 是 系数 不 等 于 零 ， 然 后 存在 目 变 量 和 因 变 量 之 间 的 
关系 。 

KE, WR p 值 小 于 显著 性 水 平 (通常 ，p 值 <0.05 是 良好 的 截止 点 ) ， 则 可 以 安全 地 
拒绝 零 假 设 。 在 目前 情况 下 ，P 值 远 低 于 阔 值 0.05， 因 此 该 模型 确实 具有 统计 显著 性 。 

(50 t 统 计量 。 在 1 检验 中 使 用 1 统计 量 来 决定 是 否 支 持 零 假 设 。 

注意 : t-statistic 是 参数 (系数 RRK) 的 估计 值 除 以 其 标准 误差 。 

该 统计 量 是 参数 的 实际 值 不 为 零 的 可 能 性 的 度量 。 较 大 的 1 值 表示 系数 不 太 可 能 纯粹 
偶然 地 等 于 零 。 下 面 的 代码 获取 了 模型 的 1 统计 值 。 

modSummary «- summary (modl) 

modCoeff <- modSummary$coefficients # model coefficients 


beta.estimate «- modCoeff["HEMAGLOBIN CENT", "Estimate"] 
std.error <- modCoertrt["HEMAGLOBIN CENT", “Std. Error-] 


uj 
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t value <- beta.estimate/std.error # calculate t statistic 
print(t value) # print t-value 
$* [1] 20.0601 


注意 : WE p 值 低 于 显著 性 水 平 (<0.05) ， 则 + 统计 值 应 大 于 1.96. 

(6) 残 差 标准 误差 。 残 差 标准 误差 是 啊 应 偏离 回归 线 的 平均 量 〈 由 于 存在 误差 项 ) ， 
因此 它 可 以 用 来 衡量 拟 合 度 。 在 目前 情况 下 ， 假 设 预期 的 HEMATOCRIT 为 4$.65， 并 且 残 
差 标准 误差 是 1.15， 则 预测 的 百分比 误差 仅 为 约 2.596. 

注意 : 自由 度 对 应 于 观察 的 数量 (计算 估计 的 独立 信息 的 数量 ) 减 去 估计 的 参数 的 数 
量 ( 截 距 和 和 斜率) 。 

CI) RR 平方 。 对 于 简单 线性 回归 ，R 平方 是 两 个 变量 之 间 相 关 性 的 平方 。 它 的 值 可 以 
在 0 和 1 之 间 变 化 : 接近 0 的 值 意味 着 回归 模型 不 能 解释 响应 变量 中 的 方差 ， 而 接近 1 的 
数字 则 表明 响应 变量 中 观察 到 的 方差 得 到 了 很 好 的 解释 。 在 目前 情况 下 ，R 平方 表明 线性 
模型 拟 合 解 释 了 数据 中 观察 到 的 80.1% 的 方差 。 

高 平方 值 不 一 定 表明 回归 模型 是 否 足 以 适合 数据 。 一 个 好 的 模型 可 能 具有 低 R 平 方 
值 ， 而 偏差 模型 可 能 具有 高 尺 平 方 值 。 

注意 : 随 着 模型 中 包含 更 多 变量 ，R 平方 值 趋 于 增加 。 因 此 ， 调整 R 平 方 是 首选 度量 ， 
因为 它 调 整 了 所 考虑 的 变量 数量 。 

(8) Fiii. ÆRE, FITUS SPUMA EE EE modleD 进行 比较 ， 并 建 
议 添 加 的 系数 是 否 改进 了 模型 。 如 果 获 得 显著 结果 ， 则 模型 中 的 系数 〈 在 当前 情况 下 是 简 
单 回归 ， 仅 输入 一 个 预测 器 ) 改善 了 模型 的 拟 合 度 。 

因此 ,， 环 统 计量 定义 了 所 有 预测 变量 对 啊 应 变量 的 集体 效果 。 下 面 的 代码 给 出 了 模型 
的 已 值 。 在 这 个 模型 中 ， 瓦 = 402.4075， 远 远大 于 1。 


图 
f <- summary(modl)5fstatistic 
print(f) # print F value 

## value numdf dendf 

## 402.4075 1.0000 100.0000 


注意 在 理想 情况 下 ， 获 得 的 正统 计量 越 高 《高 于 1) ， 拟 合 度 越 好 。 因 此 ， 此 统计 
量 可 用 于 衡量 拟 合 度 。 


č x , - = m 
, | E ert | 二 i |l i|. 1 ril Fat = 
ZI ; tH SITARA 


7.2.3 ”回归 模型 的 图 形 诊断 


诊断 图 用 于 评估 模型 假设 , 并 了 解 是 否 存在 可 能 对 分 析 产 生 强 烈 影响 的 观察 结果 。 因 此 ， 
其 目标 是 采取 适当 的 行动 来 改善 模型 拟 合 度 。 使 用 plot 传 入 模型 结果 作为 参数 会 得 到 模型 


的 残 差 图 、QQ 图 、 比 例 位置 图 及 Residuals Leverage K. 
1. 残 差 图 
残 堪 图 显示 模型 的 预测 结果 与 真实 结果 的 和 大 距 ， 如 图 7.8 所 示 。 


plot(modl, pch=16, col="blue", Ilty-1, lwd=2, which=1) 


REIME 


拟 合 值 
Im HEMATOCRIT ~ HEMAGLOBIN CENT) 
图 7.8 残 差 与 预测 结果 之 间 的 关系 


简单 线性 回归 模型 的 残 差 数据 是 因 变量 的 观测 数据 与 拟 合 值 之 间 的 差异 。 图 7.8 对 检 
得 线性 假设 和 同方 才 性 假设 很 有 用 。 为 了 评 佑 线性 假设 ， 残 专 应 该 与 0 相 才 不 六 大 《在 理 
想 情况 下 ， 标 准 化 值 应 该 在 -2 和 +2 范围 内 ) 。 为 了 评估 同方 差 性 假设 ， 残 差 应 该 随机 均 
义 地 分 布 在 水 平 红 线 周围 〈《 这 只 是 一 个 散 点 图 ， 显 示 每 个 拟 合 值 的 残 差 平均 值 ) ， 表 示 残 


在 当前 情况 下 , 由 于 存在 异常 值 , 红色 趋势 线 几乎 在 零 值 附近 活动 (除了 右 侧 ) 。 一 些 值 ， 


特别 是 139、166、169， 也 在 -2 ~ +2 范围 之 外 。 
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2.QQ 图 
QQ 图 用 于 查看 数据 是 否 满 足 正 态 分 布 假设 ， 如 图 7.9 所 示 。 
plot (modl, pch=16, col="blue", lty-1, lwd-2, which=2) 


yA 正常 QQ 图 


标 
0 


理论 分 位 数 
Im(HEMATOCRIT ~ HEMAGLOBIN CENT) 
7.9 QQ 

正常 的 QQ 图 是 一 个 散 点 图 ， 人 允许 查看 一 组 数据 是 否 可 能 来 自 正 态 分 布 。 图 7.9 是 通过 
绘制 两 组 分 位 数 《〈《 相 对 于 另 一 组 ) 来 创建 的 : 图形 上 ， 如 果 两 组 分 位 数 来 自 同一 分 布 ， 则 
这 些 点 将 沿 直线 下 降 。 

在 当前 情况 下 ， 操 在 图 的 中 间 形 成 一 条 线 ， 但 在 上 部 和 下 部 都 倾 回 于 偏离 对 角 线 。 这 
样 的 图 形 意味 着 “尾部 ” 比 标准 建 模 假设 ( 正 态 分 布 ) 中 预期 的 “更 轻 > (具有 更 小 的 值 〉。 
观察 图 7.9 的 “尾部 ”， 可 以 注意 到 观察 结果 再 人 次 是 159、166、169。 

3. 比例 位 置 图 

比例 位 置 图 用 于 显示 标准 化 残 差 与 预测 值 之 间 的 关系 ， 如 图 7.10 所 示 。 


plot(modl, pch-16, col-"blue", lty-1, lwd-2, which=3) 


比例 位 置 图 以 标准 化 残 兰 的 平方 根 作为 拟 合 值 的 函数 ， 可 碍 看 残 老 是 如 何 传播 并 检查 
同方 关 性 假设 《如 果 残 关上 共有 相等 的 方才 ) Wy. 
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" 比例 位 置 


1.5 2.0 


TEE AS 
1.0 


y 


$ 


0.0 0.5 


TA 1H 
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图 7.10 ”预测 值 与 标准 误差 的 关系 


在 图 7.10 中 ， 红 色 趋 势 线 几 乎 是 水 平 的 〈 除 了 右 侧 ) 。 同 样 可 以 观察 到 159、166、 


169 超出 了 +1.5 的 水 平 。 
4.Residuals Leverage 图 


Residuals Leverage 图 用 于 度量 数据 的 重要 性 ， 如 图 7.11 所 示 。 


plot (modl, pch=16, col-"blue", lty-1, lwd-2, which-5) 


残 值 与 杠杆 点 


"m 
Bai 


- 
d € 
E 
iE e 
en 9160 9181 . .-----|O0. 
e 库 克 距离 。__--- 
| — X 
0.00 0.05 0.10 0.15 
杠杆 点 
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7.11 Residuals Leverage 图 
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图 7.11 显示 了 杠杆 点 与 误 猎 之 间 的 关系 。 杠 杆 点 可 上 度量 其 在 确定 回归 结集 中 的 重要 性 。 
远离 虚线 的 每 个 点 都 可 以 作为 一 个 有 影 啊 力 的 点 。 

库 殉 距离 用 于 上 度量 每 个 观察 数据 对 回归 系数 的 影响 。 使 用 plot( ) 函数 传 入 模型 结果 作 
为 参数 ， 并 将 参数 which 设 定 为 4， 即 可 绘制 库 元 距离 图 ， 如 图 7.12 所 示 。 


plot (modl, pch-16, col="blue", lty-1, lwd=2, which=4) 


企图 7.12 F, x 烛 表 示 数 据 集 的 行 数 ，}》 灿 表示 数据 的 库 死 距 诡 。 库 死 距离 大 于 1 
表明 存在 可 能 的 异 意 值 。 在 目前 情况 下 ， 由 图 7.12 可 以 看 到 ，166 BS FE SEEB HERK Cre 
于 2) 。 


y 库 元 距离 


库 殉 距离 
00 05 10 15 20 


0 20 40 60 80 100 
变量 的 编号 
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图 7.12 库 克 距离 图 


7.2.4 ”预测 模型 


一 旦 模型 得 到 改进 ， 就 有 可 能 进行 预测 分 析 ， 这 是 回归 分 析 的 真正 目标 。 数 据 集 可 以 
分 为 训练 〈 开 发 ) 数据 集 《〈 占 比 70%) 和 测试 〈 验 证 ) 数据 集 〈 占 比 30%) 。 测 斌 数据 集 
用 于 评估 模型 。 下 面 将 预测 啊 应 值 与 实际 响应 值 进行 比较 ， 使 用 set.seed( ) 设置 随机 种 子 ， 
以 确保 每 次 运行 的 结果 都 一 样 。 


set.seed(123) 
trainingRowIndex <- sample(1:nrow(newdata), 0.7*nrow(newdata)) 


第 / s sia 


trainingData «- newdata[trainingRowIndex, ] 
testData <- newdata[-trainingRowIndex, ] 


现在 可 以 在 训练 数据 上 开发 模型 ， 并 用 其 来 预测 测试 数据 上 的 HEMATOCRIT. 


modTrain <- lIm(HEMATOCRIT ~ HEMAGLOBIN, data-trainingData) 
predict «- predict(modTrain, testData) 
summary (modTrain) 


## 

## Call: 

## lm(formula = HEMATOCRIT ~ HEMAGLOBIN, data = trainingData) 
mt 

$4 Residuals: 

## Min 1Q Median 3Q Max 

## -2.76832 -0.54986 0.09867 0.61468 2.13560 

id 

## Coefficients: 

$4 Estimate Std. Error t value Pr(»|t|) 

$$ (Intercept) 9.4504 2.2248 4.248 6.63e-05 *** 

$4 HEMAGLOBIN TAE SSH QNI 0.1429 16.307 < 2e-16 *** 

ET 一 一 一 
| 
## 


## Residual standard error: 0.9516 on 69 degrees of freedom 
## Multiple R-squared: 0.794, Adjusted R-squared: 0.791 
## F-statistic: 265.9 on 1 and 69 DF, p-value: < 2.2e-16 
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基于 完整 数据 建立 的 原始 模型 相 比较 。 

现在 ， 考 虑 到 测试 数据 ， 实 际 值 和 预测 值 之 间 的 相关 性 可 以 用 作 精 上 度 测 量 的 形式 。 下 
面 的 代码 将 真实 的 络 条 合并 成 一 个 数据 框 ， 并 计算 了 相关 系数 。 


act pred <- data.frame(cbind(actuals-testDataSHEMATOCRIT, predicteds-predict)) 
cor(act pred) 

id actuals predicteds 

## actuals 1.0000000 0.9010383 

## predicteds 0.9010383 1.0000000 


相关 性 显示 90.196 的 高 值 ， 这 意味 着 实际 值 和 预测 值 非常 相似 。 
下 面 给 出 由 实际 值 和 预测 值 组 成 的 新 数据 集 的 前 10 行 : 


head(act pred, n-10) 
## actuals predicteds 
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$4 101 46.8 46.49839 
$4 107 47.5 47.43041 
## 112 45.2 45.10035 
## 113 41.6 42.07127 


实际 值 和 预测 值 似乎 非常 接 近 。 在 模型 的 预测 结果 和 真实 结果 中 ， 比 较 小 的 值 与 比较 


大 的 值 的 丙 的 平均 值 是 一 个 很 好 的 度量 标准 ， 这 个 度量 标准 考虑 了 最 小 预测 值 和 最 大 预测 
值 之 间 的 平均 值 。 


min max <- mean(apply(act pred, 1, min) / apply(act pred, 1, max)) 
print(min max) 
## [1] 0.9790599 


0.98 的 结果 是 高 值 ， 这 意味 着 精度 非常 好 。 

注意 : 理想 情况 下 ， 近 乎 完美 的 预测 值 为 1。 

平均 绝对 百分比 偏差 如 此 定义 : 

mape <- mean(abs((act predspredicteds - act pred$actuals))/act pred$actuals) 


print (mape) 
$4 [1] 0.02136194 


结果 约 为 0.02， 非 常 低 ， 这 意味 着 非常 好 的 预测 精度 。 
注意 : MAPE 只 能 针对 保证 严格 为 正 的 数据 进行 计算 。 


72.5 抽样 方法 


重 采 样 基于 在 数据 集中 进行 有 放 回 的 采样 方法 ， 在 重 采 样 的 模型 中 拟 合 模型 。 目 标 古 


估计 线性 回归 拟 合 的 可 变性 和 稳健 性 。 


在 目前 情况 下 ， 该 模型 很 好 地 预测 了 数据 集中 30% 的 数据 (这 30% 的 数据 就 是 测试 数 


$4) ， 现 在 必须 确保 它 也 能 很 好 地 适应 所 有 不 同 子 集 。 重 采样 方法 很 多 ， 本 节 将 使 用 大 折 
登 区 叉 验 证 方法 。 


k 折 车 交叉 验证 方法 将 一 组 观察 值 随机 地 划分 为 大 致 相等 大 小 的 个 随机 样本 。 首 先 每 


个 部 分 保持 为 测试 数据 ， 将 模型 重新 拟 合用 于 预测 删除 的 观察 结果 的 剩余 K-1 部 分 。 


然后 ， 通 过 计算 艾 方 误差 的 平均 值 《〈《 对 于 大 部 分 ) 来 佑 计 贡 试 误 兰 。 在 目前 情况 下 ， 


设 定 上 = 5 (通常 使 用 3、5、7、10 倍 ) 。 在 这 里 使 用 的 包 是 DAAG， 进 行 交叉 验 证 的 函数 
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是 CVIm( ), 其 第 一 个 参数 data 是 模型 的 数据 集 , 然后 是 模型 的 公式 ,大 表示 交叉 验证 的 折 数 。 
交叉 验证 的 拟 合 图 如 图 7.13 所 示 。 


library (DAAG) 
kfold <- CVl1m(data = newdata, form.lm = formula(HEMATOCRIT ~ 
HEMAGLOBIN), m-5, 
dots = FALSE, seed-123, legend.pos-"topleft", 
main-"Cross Validation; k-5", 
plotit-TRUE, printit-FALSE) 


HEMATOCRIT 
50 55 60 


45 


40 


14 15 16 17 18 19 


HEMAGLOBIN 
图 7.13 ”交叉 验证 的 拟 合 图 
由 图 7.13 可 以 看 出 ， 拟 合 线 的 斜率 没有 太 大 变化 ， 并 且 对 于 一 种 特定 颜色 ， 任 何 一 个 
竺 定 样品 的 数据 都 不 会 过 于 分 艇 。 
均 方 误差 测量 回归 线 如 何 接近 一 组 点 : 


attr(kfold, ms ) 
$$ [1] 1.368982 


均 方 误 兰 的 值 很 低 ， 表 示 结 打 比 较 精 确 。 
理想 情况 下 ， 均 方 误 差 越 小 ， 拟 合 线 越 接近 最 佳 拟 合 线 。 


D 
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线性 回归 是 回归 模型 中 最 常用 的 统计 模型 ， 描 述 了 数据 之 间 存 在 的 线性 关系 。 当 数据 
间 存 在 线性 关系 时 ， 线 性 模型 能 够 很 好 地 描述 数据 间 的 关系 。 但 是 当 数 据 间 的 关系 并 不 是 
线性 的 时 , 线性 回归 模型 的 效果 则 可 能 不 是 很 令 人 满意 , 这 时 就 需要 使 用 其 他 模型 进行 建 模 。 
本 章 介 绍 了 线性 回归 的 基本 概念 ， 以 及 R 语言 中 线性 回归 的 实现 ， 详 细 地 对 线性 回归 模型 
的 结果 进行 了 解释 。 为 了 让 模型 更 加 稳定 ， 可 以 使 用 交叉 验证 的 方法 进行 建 模 ， 进 而 得 到 
更 加 稳定 的 模型 结果 。 
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第 8 章 逻辑 回归 模型 

钦 辑 回归 模型 是 线性 回归 模型 的 衍生 ， 用 于 解决 回归 模型 无 法 解决 的 问 
题 。 回 归 模 型 的 预测 结果 的 范围 是 负 无 穷 到 正 无 穷 ， 因 此 其 无 法 比较 好 地 解 
决 分 类 问题 。 逻 辑 回归 模型 是 解决 分 类 问题 最 常用 的 一 个 模型 ， 其 原理 非常 
人 简单， 模型 有 非常 好 的 可 解释 性 ， 可 以 了 解 每 一 个 特征 对 模型 结果 的 预测 影 
响 程度 ， 正 因 如 此 ， 尼 辑 回归 模型 是 用 于 构建 信用 评分 卡 的 模型 ,逻辑 回归 
的 结果 可 以 非常 方便 地 转化 为 信用 评分 ， 人 逻辑 回归 模型 的 特征 也 可 以 非常 方便 
地 转化 为 对 应 的 分 数 。 最 重要 的 一 点 是 ， 远 辑 回 归 模 型 的 预测 能 力 通 第 很 不 错 。 
本 章 将 介绍 次 辑 回归 的 基本 理论 ， 以 及 如 何在 民 语 言 中 构建 次 辑 回归 模型 。 


8.1 逻辑 回归 的 原理 


逻辑 回归 模型 属于 广义 线性 模型 (GLM) 。 在 数学 上 ，GLM 可 以 表示 为 
Y|X -2x-N(B,* Bx *- B, xo) 

ILS 2X; T^ [8] UL CIRURT 32 8 [8L JA BRL I] 73 ERN, 1E n E UO el UH EE 
ZRZROK T PAREREA. RIER RR p UL FEANEN: 
Y - f, Box ++ Bx +E E~ N(0,o) 
它 直 接 计 算 啊 应 了。 部 回归 模型 以 类 似 的 方式 定义 : 


log px) = p, + Bx deed Xp 
1— p(x) p p 


但 是 ， 其 与 线性 回归 逻辑 不 同 的 是 ， 啊 应 的 计算 不 是 直接 的 。 

具有 响应 变量 的 等 式 的 一 侧 〈 也 就 是 公式 的 左 侧 ) 称 为 对 数 赔 率 。 

在 二 元 问题 中 ， 赔 紊 是 “ 正 ” 事 件 (天 1) 除 以 “ 负 ” 事 件 概 率 〈 天 2) 
的 概率 。 
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p(x) _ PY -1X =x] 
l- p(x) P|Y =0|X =x] 


X7 3 [n JRE I 73 FEET REO — 1 RE. SMH logit EIH , X7 H S HJ CS SC" E 
Bc" BET. 


e^ tB 7t Bp-iXi( pa) 


p(x, )= P| Y, = ]| X, MA AURI s 


注意 ， 这 有 是 概率 的 预测 值 。 对 于 分 类 问题 ， 需 要 将 该 概率 值 转换 为 分 类 结果 。 

简 而 言 之 ， 线 性 回归 模型 用 于 预测 定量 《数值 ) 啊 应 变量 ， 而 逻辑 回归 模型 用 于 预测 
定性 (分类) 啊 应 变量 (更 一 般 地 ， 预 测 分 类 啊 应 变量 称 为 分 类 ) 。 在 视觉 上 ， 线 性 模型 
生成 十 线 ， 人 逻辑 模型 生成 S 形 曲 线 。 


8.2 在 民 语 言 中 实现 逻辑 回归 模 琴 


本 章 用 到 的 数据 集 是 ISLR 包 中 的 Default 数据 集 ， 其 中 包含 客户 信息 的 模拟 数据 集 ， 
目的 是 预测 哪些 客户 将 拖欠 信用 卡 债务 ， 这 个 数据 集 有 1 万 条 数据 、3 个 特征 。 


library i TSbs" 
libraryvy("tibble") 

as tibble(Default) 

## # A tibble: 10,000 x 4 


Td default student balance income 
$4 SEMIS «fct» <dbl> <dbl> 
## 1 No No 7130. 44362. 
## 2 No Yes 817. 12106. 
## 3 No No 1074. 31767. 


这 里 需要 分 析 的 是 学 生 身 份 、 信 用 卡 余 额 、 收 入 这 3 个 特征 ， 并 对 违约 行为 进行 适当 
分 类 。 
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8.2.1 数据 探索 


拿 到 数据 的 第 一 步 是 对 数据 进行 了 解 。 了 解 的 方面 包括 数据 的 质量 、 数 据 的 分 布 及 数 
据 之 间 的 关系 。 密 度 图 可 用 于 分 析 预 测 变量 与 连续 变量 之 间 的 关系 ， 这 里 使 用 ggplot2 () 22 
制 关 于 balance 特征 的 密度 直方 网 ， 如 图 8.1 所 示 。 


ibrary ercT be 2) 
Eu Lo e e sump a e a coils ea a ossi 
density()*labs(title = "default with balance") 
余额 与 违约 
Y 
0.0012 


0.0009 
tx 0.0006 
T 


0.0003 


0.0000 


Ü 1000 2000 
余额 
图 8.1 balance 的 分 布 
图 8.1 描述 了 违约 、 不 违约 两 种 情况 下 信用 卡 余 额 的 分 布 。 其 中 ， 波 峰 在 左边 的 曲线 
No 表示 没有 违约 ， 波 峰 在 右边 的 曲线 Yes 表示 存在 违约 。 从 图 8.1 中 可 以 看 出 ， 这 两 种 
情况 下 信用 卡 余额 的 分 布 是 不 一 样 的 ， 这 说 明 这 两 群 人 的 信用 卡 余额 是 不 一 样 的 ， 也 整 
是 说 ， 信 用 卡 余 额 对 于 是 售 是 违约 者 有 很 好 的 区 分 能 
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下 面 绘制 income 特征 的 密度 二 方 图 ， 如 图 8.2 所 示 。 


ggplot(data = Default,aes(x = income,color = default))tgeom 
density()Tlabs(title = "default with income") 
收入 与 违约 
Y 
3e-05 


2e-05 
违约 
EN 不 
3 L 
| 是 
]e-05 
0e-00 
| | x 
0 20000 40000 60000 
收入 


图 8.2 income 的 分 布 
从 图 8.2 中 可 以 看 到 ， 违 约 、 不 违约 这 两 个 群体 间 的 收入 分 布 差异 不 大 ， 可 以 认为 收 
入 对 模型 不 是 特别 有 用 。 
下 面 绘制 income 特征 与 student 特征 的 密度 直方 图 ， 如 图 8.3 所 示 。 


library (ggplot2) 
De orrae Eea a E a EE 
density()+labs (title = "student with income") 
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学 生 与 收入 


7.5e—05 


5.0e—05 站 S 
x 不 
- _ 
[ ] 是 
2.5e—05 
0.0e—00 
X 
0 20000 40000 60000 
收入 


图 8.3 ”收入 与 是 否 是 学 生 之 间 的 关系 
从 图 8.3 中 可 以 观察 到 学 生 和 群体 和 其 他 群体 的 收入 分 布 。 这 些 密度 图 表明 学 生 的 收入 
远 低 于 其 他 群体 。 


8.2.2 ”构建 还 辑 回 归 模 型 


虽然 我 们 可 以 做 更 多 的 数据 探 寺 ,但 是 对 于 这 份 数据 已 经 足够 了 ， 接 下 来 创建 人 远 辑 回 
归 模 型 。 为 了 实现 民 好 的 建 模 实 践 ， 首 先 划 分 训练 集 和 测试 集 ， 然 后 对 训练 集 创建 模型 ， 
以 避免 在 进行 回归 时 过 上 度 拟 合 。 下 面 的 代码 育 先 将 数据 集 划分 为 训练 集 和 测试 集 ， 然 后 构 
建 逻辑 回归 模型 。 这 里 使 用 gim) 构建 逻辑 回归 模型 ， 在 逻辑 回归 模型 中 ， 使 用 default 特 
征 作 为 因 变 量 ， 数 据 集中 所 有 其 他 特征 作为 目 变量 。 


# Split into train/test splits first. 

set.seed(42) 

default idx «- sample(nrow(Default), ceiling(nrow (Default) / 2)) 
default trn <-  Default[default idx, ] 

default tst <- Default[-default idx, | 


3 


深入 浅 出 民 语 言 数 据 分 析 


# Create the model. 
model glm <- glmideftault ~ ., data = default trn, family = "binomial") 


创建 逻辑 回归 模型 的 过 程 与 创建 线性 回归 模型 的 过 程 非常 相似 。 但 是 ， 我 们 使 用 
glm( ) RË Im( )。 另 外 需 注 总， 我 们 必须 为 二 进 制 分 类 指定 family ^"binomial". (SĘ 
Es E, Hi family ="gaussian" 调用 glm( ) 等 同 于 1m( )， 然 后 使 用 summary( ) 函数 得 看 
逻辑 回归 模型 的 详细 信息 。 


summary (model gim) 


## 

## Call: 

## glm(formula = default ~ ., family = "binomial", data = default trn) 
## 

## Deviance Residuals: 

## Min 1Q Median 3Q Max 

44 -2.4137 -0.1496 -0.0596 -0.0214 3.7295 

UE 

## Coefficients: 

## Estimate Std. Error z value Pr(»|zl) 


## (Intercept) -1.026e+01 6.852e-01 -14.976 < 2e-16 *** 
## studentYes -1.010e+00 3.248e-01 -3.109 0.00188 ** 


## balance 5.663e-03 3.252e-04 17.412 < 2e-16 *** 

## income -8.386e-06 1.139e-05 -0.736 0.46152 

# -== 

ft Signif. codas: vw DEA teatro qutt 
## 

## (Dispersion parameter for binomial family taken to be 1) 

Y 

T4 Null deviance: 1470.42 on 4999 degrees of freedom 


## Residual deviance: 813.19 on 4996 degrees of freedom 
## AIC: 821.19 


## Number of Fisher Scoring iterations: 8 


与 线性 回归 模型 计算 的 summary ARIF, IXXCRURPDCRUH ZAR 8 S. UR 
训 变 量 的 显著 性 估计 ， 逻 辑 回归 框架 中 的 疡 值 的 解释 与 线性 回归 模型 的 忆 值 相同 。 

注意 ， 逻 和 辑 回归 模型 得 到 的 是 z 值 而 不 是 ! 值 。 在 没有 过 多 地 理解 这 种 差异 的 理论 的 情 
mP MZEE E ARAF tE. 

由 summary( ) 调用 生成 的 逻辑 回归 诊断 值 通常 不 卫 接 用 于 解释 模型 的 拟 合 情况 。 

在 进行 任何 预测 之 前 ， 使 用 summary( ) 简要 检查 模型 。 除 了 观察 模型 的 误 套 、p 值 等 
信息 外 ， 重 点 是 要 看 看 我 们 的 模型 估计 了 哪些 系数 值 。 


第 C9 samumm 
8.2.3 ”逻辑 回归 预测 


在 更 仔细 地 研究 更 适合 于 逻辑 回归 模型 的 诊断 之 前 ， 首 先 应 该 了 解 如 何 使 用 predict( ) 
函数 进行 预测 。 为 了 返回 概率 ， 我 们 必须 指定 type ="response"。 


Padi predic tmo egln uy ms reseonss ng 

## 9149 9370 2861 8302 6415 
## 9.572703e-04 4.550820e-01 9.532154e-03 3.281078e-05 1.214581e-04 
id 5189 


## 2.968213e-04 


这 些 预 测 值 是 可 能 性 ， 而 不 是 分 类 。 我 们 必须 “手动 ”将 概率 转换 为 分 类 。 传 统 上 ， 
可 以 使 用 0.5 FAHRE (这 实际 上 相当 于 指定 type "link" 并 使 用 阀 值 0.5) ， 使 用 if else 将 
所 有 预测 值 大 于 0.5 的 结果 记 为 Yes， 将 小 于 等 于 0.5 的 结果 记 为 No。 


本 
T" Yes TI : "No "n ) 

head(trn pred) 

## 9149 9370 2861 8302 6415 5189 

## A as qu Led e s ANIM "NEM "No" eel en tato 


82.4 还 辑 回归 模型 评估 


评 信 分 类 模型 最 常见 的 事情 可 能 是 使 用 交叉 表 将 实际 啊 应 值 与 预测 啊 应 值 进行 比较 。 
交叉 表 通 种 称 为 混 消 算 阵 ， 可 以 使 用 base 中 的 table( ) 图 数 生 成 此 窍 阵 。 


MEDIE buc EHE Bn EE M PUE ccpit 


trn tab 

## actual 

## predicted No Yes 

4 No 4814 121 

Td Yes 18 47] 

# Making predictions on the test set. 

est pred Itelselerediere (madel glm newdaka = default tst; type = 


"response") > 0.5, "Yes", NOT 
tst tab <- table (predicted = tst pred, actual = default tst$default) 


EEG 

## actual 

## predicted No Yes 
Td No 4815 111 
## Yes 20 54 
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评估 逻辑 回归 模型 的 常见 指标 是 错误 率 和 准确 度 , 可 以 直接 从 混淆 矩阵 计算 这 些 指标 。 
下 面 编写 了 一 个 函数 ， 用 于 计算 模型 的 错误 率 ， 


CAE 

mean(actual != predicted) 
} 
民品 default ern Aetanlt, predicted = Erm De 
## [1] 0.0278 
calc class err(actual = default tst$default, predicted = tst pred) 
## [1] 0.0262 


现在 ， 我 们 更 详细 地 考虑 混淆 矩阵， 如 图 8.4 所 示 。 真 阳性 CTP). ARIE CTN) 、 
假 阳性 (FP) 和 假 阴 性 CEND 通常 用 于 参考 混 消 矩阵 的 4 个 维度 。 


Sens = TruePositiveRate = ead = TP 
P IPc-FN 
Spec = TrueNegativeRate = LL NIE, 5. 
N TN+FP 
P IP+FN 


Qv = 三 
Totalobs TotalObs 
式 中 ，TruePositiveRate 为 真 阳 性 率 ; TrueNegativeRate 为 真 阴性 率 ; TotalObs 为 总 的 样 
本 数量 。 


Actual 
| False (0) True (1) 


i TM] True Negative (TN) False Negative (FN) 
Predicted - : 
True (1) False Positive (FP) True Positive (TP) 


图 8.4 混淆 矩阵 


从 混 清和 窍 阵 可 以 推导 出 灵敏 度 、 特 异性 的 度量 。 这 些 〈 和 其 他 ) 度量 的 重要 性 取决 于 
数据 的 性 质 例 如 ， 如 末 认 为 数据 难以 预测 ， 则 较 低 的 值 可 能 是 可 接受 的 ) ， 以 及 对 错误 
分 类 类 型 的 容 恕 度 。 例 如 ， 我 们 可 能 布 望 对 负 样 本 进行 分 类 的 预测 ， 以 便 我 们 更 有 可 能 
未 及 生 负 样本 时 预测 负 样本。 我们 必须 仔细 确定 我 们 是 售 要 优先 若 虑 敏感 性 或 特异 性 。 

我 们 可 以 使 用 caret 包 中 的 confusionMatrix( ) 函数 来 轻松 获得 灵敏 度 、 特 异性 等 值 。 


library ("caret") 
## Loading required package: lattice 
[EONnBEISACHnMsITIXDUEPUSU SEEEDOSTIETUECC S NEC 
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## Confusion Matrix and Statistics 


## 

y actual 

## predicted No Yes 

d No 4814 3121 

## Yes 18 47 

## 

Td Accuracy : 0.9722 
Td 95% CI : (0.9673, 0.9766) 
## No Information Rate : 0.9664 
Uu P-Value [Acc » NIR] : 0.01101 
## 

## Kappa : 0.392 
##  Mcnemar's Test P-Value : < 2e-16 
## 

T4 SeIBd eut E20 
id Specificity : 0.9963 
id Pos Pred Value : 0.7231 
gd Neg Pred Value : 0.9755 
Td Prevalence : 0.0336 
T Detection Rate : 0.0094 
## Detection Prevalence : 0.0130 
## Balanced Accuracy : 0.6380 
## 

## 'Positive' Class : Yes 

Td 


现在 ， 让 我 们 考虑 另 一 个 与 混 清 矩阵 无 关 的 度量 。 还 记得 我 们 选择 0.5 作为 分 类 门槛 
EB? 我 们 怎么 知道 0.5 值 是 准确 度 的 “最 佳 ” 值 ? 实际 上 ， 其 他 门槛 值 可 能 更 好 【如果 
所 有 模型 假设 都 为 真 且 样本 量 相当 大 ， 则 0.5 将 倾 癌 于 最 佳 值 ) 。 

ROC 曲线 说 明了 所 有 可 能 的 门槛 值 的 灵敏 度 和 特异 性 。 我 们 可 以 使 用 pROC 包 中 的 
roc( ) 图 数 生 成 ROC 曲线 ，roc( ) 函数 的 第 一 个 参数 是 数据 集 的 真实 标签 ， 第 二 个 参数 是 模 
型 的 预测 结果 ， 第 三 个 参数 plot 需要 输入 一 个 逻辑 值 ， 用 以 表明 是 否 需 要 绘制 ROC 曲线 图 。 
模型 的 ROC 曲线 如 图 8.5 所 示 。 


Iibrarwvi("bpROU') 

## Type 'citation("pROC")' for a citation. 

## 

## Attaching package: 'pROC' 

## The following objects are masked from 'package:stats': 
Td 


vc cov, smooth, var 
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ees uEBR-medeudmLIcwIS NI tcm E 
"response") 

ES Eto 
= TRUE) 

as.numeric(test roc$auc) 

$4 [1] 0.9519489 


0.8 1.0 


0.6 


灵敏 度 


0.4 


曲线 下 面积 : 0.952 


0.2 


0.0 


1.2 10 08 06 04 02 00 -0.2 
特异 度 
图 8.5 ROC 曲线 图 
一 般 来 说 ， 希 望 曲 线 靠 向 左边 界 和 上 边界 表明 高 灵敏 度 和 特异 性 ) 。 曲 线 下 面积 用 
于 量化 ROC 的 轮廓 。 从 图 8.5 中 可 以 看 到 ， 曲 线 下 面积 的 值 为 0.952， 模 型 效果 很 不 错 。 


8.3 总 结 


逻辑 回归 模型 是 解决 分 类 问题 较 常 用 的 模型 之 一 ， 其 有 非常 好 的 可 解释 性 ， 并 且 模 型 
通常 能 够 达到 比较 好 的 预测 效果 ， 因 此 ， 风 辑 回 归 模 型 被 广泛 应 有 用。 通常 而 言 ， 逻 辑 回 归 
模型 用 于 解决 二 分 类 问题 ， 并 不 能 直接 地 解决 多 分 类 问题 ， 但 是 ， 有 方法 可 以 让 逻辑 回归 
模型 来 解雇 多 分 类 问题 。 衡 量 分 类 模型 好 坏 的 指标 有 很 多 ， 如 混 消 和 矩阵、 有 灵敏度、 特异 度 ， 
等 等 ， 这 坚 指 标 可 以 衡量 二 分 类 或 者 多 分 类 的 模型 。 对 于 二 分 闫 问题 ， 万 外 一 些 指标 ， 包 
括 ROC、KS 等 也 向 第 被 用 来 衡量 模型 的 优 务 。 忆 而 言 之 ， 远 辑 回 归 模 型 是 解决 分 类 模型 
的 优秀 模型 ， 其 简洁 、 可 解释 性 、 展 好 的 模型 预测 能 力 使 其 成 为 应 用 较 三 泛 的 模型 之 一 。 


第 9 章 聚 类 模型 

聚 类 模型 的 基本 思想 是 “ 物 以 类 聚 ”， 即 相似 的 样本 会 被 归 为 一 类 。 因 
此 ， 聚 类 分 析 的 一 个 关键 所 是 如 何 衡量 数据 间 的 相似 性 。 在 数据 分 析 项 目 中 ， 
当 需 要 对 数据 进行 聚 类 分 析 时 ， 和 常常 会 先 对 数据 进行 多 维 缩放 ， 再 将 高 维度 
数据 进行 可 视 化 ， 如 采 观 察 到 的 数据 中 存在 数据 聚集 的 情况 ， 再 进一步 对 数 
据 进 行 聚 类 。 但 是 ， 很 多 情况 下 没有 办 法 先行 判断 数据 中 是 否 存在 数据 聚集 
的 情况 ， 这 个 时 候 进行 聚 类 分 析 会 涉及 一 些 主观 性 的 判断 。 例 如 ， 将 数据 聚 
类 为 多 少 类 别 。 聚 类 为 多 少 类 别 ， 这 是 数据 分 析 中 很 值得 商检 的 一 个 事情 。 
第 用 的 聚 类 方法 包括 层次 聚 类 、K 均值 聚 类 。 


9.1 概 人 述 


聚 尖 是 一 种 非 监督 的 机 邢 学 习 模 型 ， 用 于 识别 数据 中 存在 的 模式 。 它 的 
基本 的 思想 是 计算 样本 之 间 的 相似 性 (当然 ， 相 似 性 有 很 多 衡量 指标 )》， 然 
后 将 相似 的 样本 聚集 起 来 。 例 如 ， 在 广告 应 用 中 ， 退 过 识别 具有 相似 情况 的 
客户 ， 将 客户 划分 为 不 同 的 子 群 ， 这 些 不 同 的 子 群 可 能 接受 特定 形式 的 广告 ， 
由 此 可 进一步 来 取 有 针对 性 的 广告 投放 措施 。 聚 类 分 析 在 很 多 领域 有 着 应 用 ， 
如 市 场 细 分 的 人 营销、 其 诈 分 析 等 。 本 和 章 会 对 聚 关 分 析 进 行 简单 的 介绍 ， 并 介 
绍 聚 类 模型 在 R 语言 中 的 实现 。 


9.1.1] RRR 


聚 类 分 析 是 根据 样本 相似 性 对 样本 进行 分 类 。 可 以 使 用 不 同 的 聚 类 算法 
进行 分 机 ， 如 天 均值 聚 类 、 分 层 聚 关 、Medoids RK (PAM) 。 

所 有 聚 类 方法 都 对 数据 的 比例 (单位) 敏感， 因此 必须 使 我 们 数据 的 所 
有 变量 以 相似 的 比例 进行 聚 关 。 本 和 章 主 要 介绍 天 均值 聚 类 。 
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9.1.2 K 均 值 从 类 的 原理 


KK 均值 察 类 (K Means Clutering〉 是 一 种 无 监督 的 机 器 学 习 聚 类 算法 ， 它 试图 将 观察 分 
组 到 不 同 的 聚 类 中 。 具 体 而 言 ， 该 算法 的 目标 是 最 小 化 集群 内 的 差异 并 最 大 化 集群 之 间 的 
zi. 

要 执行 天 均值 聚 类 方法 ， 首 先 要 指定 聚 类 数 玉 ， 然 后 将 每 个 观测 值 分 配给 天 个 聚 类 中 
的 一 个 。 这 是 一 个 相当 人 简单、 直观 的 数学 问题 。 

我 们 首先 定义 一 些 符 号 。 设 C,…,C, 表 示 包 全 每 个 簇 中 观察 值 的 案 引 的 集合 。 这 些 集 
合 满足 以 下 属性 : 

C, UC, UC, ={1,…,n} 。 每 一 个 观测 数据 都 属于 这 天 个 聚 类 中 的 一 个 。 

C 门 C, = 如，k 关 KK' 。 也 就 是 说 ， 集 群 是 不 重 登 的 ;观察 数据 不 能 属于 多 个 集群 。 

例如 ， 如 采 第 个 观察 值 在 第 大 个 徐 中 ， 那 么 ze Cl 。 

I C, 的 内 变化 是 簇 内 观察 值 彼此 不 同 的 量 的 量度 W (C, ) 。 因 此 ,我 们 想 解 决 以 下 问题 : 


min. c ga (9.1) 


X (9.1) SEDEM 个 徐 ， 使 得 在 所 有 天 个 艇 上 求 和 的 总 簇 内 变 
化 尽 可 能 小 。 求 解 等 式 〈9.1) 似乎 是 一 个 合理 的 想法 ， 但 为 了 使 其 可 行 ， 我 们 首先 需要 害 
义 群 内 变异 。 有 许多 可 能 的 方法 来 定义 这 个 概念 ， 但 最 和 常见 的 是 使 用 平方 欧 氏 距离 ， 其 定 
义 为 


l P 
W(C,)2 — >, 2x; 7x5) (9.2) 
IC, | ii'eC, j=l 


中 ，|C, | 表示 第 个 簇 中 的 观察 数 。 也 就 是 说 ， 第 个 聚 类 的 聚 类 内 变化 是 聚 类 中 观测 值 
之 间 的 所 有 成 对 平方 欧 氏 距离 之 和 除 以 第 大 个 聚 类 中 的 观测 总 数 。 
如 果 我 们 结合 等 式 (9.1) 4H (9.2 ， 我 们 得 到 定义 天 均值 聚 类 的 优化 问题 : 
n, s ÈA Senn) "T 


现在 ， 我 们 想 解决 (9.3〉 。 换 句 话说 ， 我 们 需要 一 种 方法 将 观测 值 划分 为 天 个 聚 类 ， 
以 使 式 〈9.3) 的 目标 最 小 化 。 这 实际 上 是 一 项 难以 精确 解决 的 任务 ， 因 为 几乎 有 天 ,方法 将 


正 个 观测 值 划 分 为 天 个 聚 类 。 这 是 一 个 巨大 的 数字 ， 除 非 玉 和 半 非 常 小 ! PEWNE, FE 
一 种 相当 简单 的 算法 ， 可 以 证 明 它 可 以 为 式 (9.3) 中 的 天 均值 优化 问题 提供 局 部 最 优 解决 
方案 。 方 法 如 下 。 
e 从 每 个 观察 值 中 随机 分 配 1 ~ 玉 的 数字 。 这 些 用 作 观 察 值 的 初始 聚 类 分 配 。 
e 迭代 ， 直 到 群集 分 配 停 止 更 改 。 对 于 每 个 KK 徐 ,计算 秘 质 心 。 第 个 聚 类 质心 是 用 
于 第 个 聚 类 中 的 观察 的 p 个 特征 装置 的 向 量 。 将 每 个 观测 值 分 配给 质心 最 接近 的 
聚 类 ， 如 欧 氏 距离 所 定义 的 那样 。 
保证 上 述 算法 在 每 次 迭代 时 减 小 式 (9.3) 的 值 。 要 了 解 原因 ， 请 考虑 : 


c] 2; (x, — Xn ) -2Y Ys, -x) (9.4) 


k ijeC, j=l ieC, j^ 


x, = Y x dk C, PRAE j 的 平均 值 。 


”Ia 
ÆA (9.2) 中 ， 每 个 特征 的 聚 类 结果 是 最 小 化 偏差 平方 和 的 常数 ， 并 且 重 新 分 配 观 色 
结果 只 能 改进 式 (9.4) 。 这 意味 看 在 运行 算法 时 ， 绪 得 的 聚 类 将 不 断 改 进 ， 生 到 结案 不 册 
发 生变 化 。 式 〈9.3) 的 目标 值 永远 不 会 增加 。 当 结果 不 再 变化 时 ， 己 达到 局 部 最 优 。 
KK 均值 罕 类 找到 局 部 最 优 结果 而 不 是 全 局 最 优 结 霖 ， 所 获得 的 结果 将 取决 于 算法 的 步 
又 1 中 每 个 观察 值 的 初始 随机 簇 分 配 。 因 此 ， 在 不 同 的 随机 初始 配置 中 多 次 运行 算法 公关 
重要 。 然 后 ， 选 择 最 佳 解决 方案 ， 即 目标 (9.0 最 小 的 那个 。 


9.2 人 在 民 语 言 中 实现 聚 类 模型 


本 市 用 到 的 数据 来 源 于 25 个 欧洲 国家 的 很 日 质 摄 入 百分比 ， 获 取 数 据 的 链接 是 http: // 
www.biz.uiowa.edu/faculty/jledolter/DataMining/protein.csv 

首先 准备 好 数据 ， 使 用 readr 包 中 的 read csv9( ) 函数 读 取 对 应 链接 中 的 数据 集 ， 然 后 
展示 数据 集 的 前 3 条 数据 : 

url = 'http://www.biz.uiowa.edu/faculty/jledolter/DataMining/protein.csv' 

library (readr) 


food <- read csv(url) 
head (food, 3) 
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iz Country RedMeat WhiteMeat Eggs Milk Fish Cereals Starch Nuts Fr.Veg 


## 1 Albania el 1.4 0.5 8.9 J. 2 42.3 0.6 uc 
TT 
$$ 2 Austria 8.9 TIE cpu p m; E Des 
4.3 
## 3 Belgium greg 9.3 4,1 17:3 4.5 26.6 do AT 
4.0 


数据 集 包 括 25 条 数据 、10 个 特征 。 接 下 来 使 用 4 种 方法 进行 聚 类 分 析 。 


9.2.1 天 均值 察 类 


玉 均 值 聚 关 有 一 个 很 重要 的 参数 需要 在 聚 类 之 前 进行 设 定 ， 即 聚 类 数目 。 通 党 而 言 ， 


有 两 种 方法 可 以 用 于 硝 定 最 佳 的 索 基 数目 。 


€ Elbow 万 法 。 
C Gap 统计 方法 。 
Elbow 方法 的 基本 思想 是 定义 不 同 聚 类 数目 ， 选 取 使 得 缘 类 内 总 体 杰 化 《〈 称 为 总 聚 藉 


内 变化 或 总 聚 类 内 的 平方 和 ) 最 小 化 的 聚 类 数 。 其 实现 方式 如 以 下 代码 所 示 ， 其 基本 的 思 
想 是 选择 不 同 的 聚 类 数目 , 然后 比较 聚 类 的 总 体 变 化 , 对 应 的 值 是 totwithinss, 如 图 9.1 所 示 。 


kmax«-10 

Elbowe-sapply(l1:kmax, function(k) kmeans(food[,-1], centers = k, nstart 
= 0l tot. be n bre 

plot(l:kmax, Elbow, type = 'b', xlab = 'k', ylab = 'Total wss')j 


在 图 9.1 中 ,x 轴 表 示 聚 类 中 的 聚 类 数目 ，” 轴 表 示 总 的 聚 类 变化 数 。 在 图 9.1 B. 5 


H (Elbow) 的 位 置 通 彰 指示 适当 数量 的 篮 。 


Gap 统计 方法 可 以 用 于 任何 聚 类 方法 。 它 的 基本 的 思想 是 将 不 同 值 的 集群 内 变化 的 


总 和 与 它们 在 数据 的 分 布下 的 预期 值 进 行 比较 ， 即 没有 明显 聚 类 的 分 布 。 在 采样 过 程 使 用 
蒙特 卡 罗 方 法 模拟 生成 参考 数据 集 ， 选 择 最 小 大 处 的 聚 类 数量 。 所 使 用 到 的 函数 是 cluster 
包 中 的 clusGap( ) 函数 ， 函 数 的 第 一 个 参数 是 聚 类 的 数据 集 ， 第 二 个 参数 FUN HTI ER 
类 方法 , K.max 表示 聚 类 模型 的 最 大 聚 类 数目 , B 表示 数据 抽样 的 次 数 , Gap 图 如 图 9.2 所 示 。 
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5000 


总 的 聚 类 变化 数 


图 9.1 Elbow 图 


require(cluster) 

## Loading required package: cluster 

set.seed(123) 

gap stat <- clusGap(food[,-1], FUN = kmeans, K.max = 10, B = 50) 


plot (gap stat, xlab = "Number of clusters k") 
abline(v = 4, lty = 2) 


lusGap(x = food[, -1], FUNcluster = kmeans, K.max = 
= 50, nstart = 25) 


y 
+ 
5 
LE 
十 
Ñ o 
8G 
iw 
四 X 
2 4 6 8 10 
A ASH 


图 9.2 Gap 图 
从 图 9.2 中 可 以 判断 ， 聚 类 为 3 个 集群 比较 合适 。 接 下 来 构建 天 均值 聚 类 ， 使 用 
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kmeans( ) KAJE RRK, center 参数 用 于 指定 聚 类 数目 ， 这 里 取 3。 


set.seed(123) 
food km«-kmeans(food[,-1], centers = 3, nstart = 50) 


food km 

$4 K-means clustering with 3 clusters of sizes 12, 6, 7 

## 

## Cluster means: 

LE RedMeat WhiteMeat Eggs Milk Fish  Cereals Starch 


## 1 12.091667 29.441667 3.708333 23.00000 4.991667 24.02500 4.616667 
$} 2 7.883333 7.566667 2.716667 11.68333 5.833333 31.33333 5.183333 
tt 3 7.614286 5.528571 1.800000 11:-67143 1:742857 47.12857 2.914286 
## Nuts Fr.Veg 

## 1 1.766667 3.491667 

## 2 3.133333 6.000000 

## 3 5.257143 3.642857 


## Clustering vector: 
Ft [1] 31 1 3212113312112 ces 


## Within cluster sum of squares by cluster: 
## [1] 656.4517 488.7267 561.8714 


## ^ (between SS / total SS = 67.4 5) 

## 

## Available components: 

Td 

dr UN CU ED EU seem fieret e "EOLDSS" we 
## [5] "tot.withinss" "betweenss" "size" "iter" 


$$ [9] "ifault" 


TE K EB LZ. BI ELBG UP T ÉI 8 DSL RS VARIES BB L2 foe da Pob S PRECII CH CER 
种 子 ， 则 其 会 在 男 一 次 运行 中 产生 不 同 的 结果 。nstart 是 算法 使 用 新 的 随机 中 心 初 始 化 的 次 
数 ， 因 此 强烈 建议 为 其 选择 更 高 的 值 以 稳定 算法 ，K 均 值 取 类 的 结 琳 如 图 9.3 所 示 。 


plot (x=food[,2], y-food[,3], col-food kmscluster) 
points(food km$centers, pch-3, cex-2) 


在 图 9.3 所 示 中 ，x 轴 的 food[,2] 表示 food 数据 集中 的 第 三 个 特征 ，y 轴 的 food[,3] X 
z^ food 数据 集中 的 第 三 个 特征 。 使 用 天 均值 聚 类 将 数据 聚 类 为 3 类， 其 中 “+” 号 表示 不 同 
聚 类 的 聚 类 中 心 。 图 9.3 是 群集 的 简单 可 视 化 ， 但 只 使 用 了 数据 中 的 两 个 变量 。 绘 制 数据 的 更 
好 方法 是 使 用 数据 集 降 维 的 可 视 化 方法 ， 实 现 方式 是 通过 cluster 包 的 clusplot ( ) 函数 ， 函 数 的 
第 一 个 参数 是 聚 类 的 数据 集合 ， 第 二 个 参数 是 聚 类 的 结果 。 天 均值 聚 类 的 结 末 如 图 9.4 所 示 。 
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14 


food[, 3] 
2 4 6 8 10 


food[, 2] 
图 9.3 KK 均值 聚 类 的 结果 (1) 
library (cluster) 
clusplot(food[,-1], food km$cluster, color = T, labels = 2, main = 
'Cluster Plot') 


y FXE 


-4 3 2 af 0 1 2 3 
第 一 主 成 分 
这 两 个 部 分 解释 了 62.68% 的 点 方差 
图 9.4 K 均 值 聚 类 的 结果 (2) 


在 图 9.4 中 ， 每 一 个 圈 代 表 一 个 聚 类 类 别 。 这 里 是 将 原始 的 数据 降低 为 两 个 维度 ， 使 
用 的 方法 是 主 成 分 。 


92.2 ”后 次 紧 关 


层次 聚 类 算法 为 数据 集 的 观察 值 生成 层次 结构 。 为 了 评估 观察 值 之 间 的 相似 性 ， 需 要 


深入 浅 出 民 语 言 数 据 分 析 


距离 矩阵 来 量化 接近 度 或 相似 度 。dist( ) 函数 可 用 于 计算 距离 矩阵 。 


dist data«-dist(food[,-1], method = euclidean") 

这 里 距离 矩阵 计算 的 是 欧 氏 距离 ， 男 外 方法 也 可 以 改 为 maximum, manhattan, 
canberra, binary 或 minkowski。 使 用 hclust( ) 函数 可 以 进行 层次 聚 类 ， 通 过 绘制 树 状 图 可 
以 很 好 地 可 视 化 分 层 聚 类 ， 如 图 9.5 所 示 。 


Poata a edbb[ ene iter sap nien 


hdata 

## 

## Call: 

## hclust(d = dist data) 

td 

$4 Cluster method : complete 
## Distance : euclidean 
## Number of objects: 25 


plot (hdata) 
abline(h-30, lty-2) 


y 从 集 树 形 图 


高 
10 20 30 40 


0 


dist data 


层次 聚 类 (*,” 完全") 


图 9.5 ”层次 聚 类 的 结果 


在 图 9.5 中 ，x 轴 中 的 dist data 是 建 模 中 所 使 用 的 数据 集 的 名 称 ，y 轴 中 的 Height 表示 层次 
聚 类 中 不 同类 别 的 层次 高 度 。 参 考 树 形 图 ， 应 选择 合适 的 高 度 ， 其 中 应 绘制 水 平 线 ， 并 且 水 平 
线 切 割 树 形 图 分 支 的 实例 数 是 数据 的 徐 。 由 图 9.5 可 以 判断 ， 层 次 聚 类 分 析 产 生 了 3 NRA. 


9.2.3 


Medoids 罕 类 ( PAM ) 


KK 均值 算法 使 用 均值 获得 中 心 点 ， 但 是 ,均值 对 措 剃 值 敏感 。 这 个 问题 通过 PAM 解决 。 
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f= =r = 一 I-E | 一- 
BE — bas ur Pme j i N 
Li | a— M oA —— EN EN 
f mI "und er in F) 
EJ ll 1 € -— A 
D 是 Dom M Ham - -o- 


PAM 在 数据 中 搜索 无 个 代表 性 对 象 或 中 间 体 。 在 找到 大 个 代表 性 对 象 后 ， 通 过 将 每 个 观察 
数据 指定 到 最 近 的 中 间 体 来 构建 上 个 禾 。 构 建 Medoids 聚 类 的 函数 是 pam( ) 函数 ， 其 有 两 
个 参数 , 第 一 个 参数 是 模型 的 数据 集 , 第 二 个 参数 表示 聚 类 的 数目 .Medoids 聚 类 结果 如 图 9.5 
所 示 。 


food pam«-pam(food[,-1], 3) 


food pam 

## Medoids: 

$43 ID RedMeat WhiteMeat Eggs Milk Fish Cereals Starch Nuts Fr.Veg 
## [1,]18 6.2 6.3 s E S UT cesi EE NE 

$4 [2,13 1 e 4 17.5 4.5 Z6.6 HaT 2.1 4.0 

## [3,]20 9.9 7.98 2S UD Tq gs dieu 1.4 2.0 


## Clustering vector: 

-0 dq: c qc 
## Objective function: 

T4 build swap 

## 8.631786 8.631786 


## Available components: 

## [1] "medoids" "id.med" "clustering" "objective" "isolation" 

## Ecc esit cm tbe I IDEE "dises” Mcr Eug 

toEu pole sched tood panmnmeluastering color =~ D malin Clater 
Plot') 


这 种 方法 用 于 处 理 更 大 的 数据 集 ， 以 减少 计算 时 间 和 RAM 存储 问题 。 
y RRE 


第 二 主 成 分 
-1 


第 一 主 成 分 
这 两 个 部 分 解释 了 2.8% HAN E 


9.6 Medoids RHR 
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9.3 总 f 


聚 类 分 析 是 机 器 学 习 中 的 一 种 非 监 督 算 法 ， 可 以 用 来 识别 数据 中 潜在 的 模式 。 最 常用 
的 聚 类 方法 是 天 均值 聚 类 和 层次 聚 类 。 对 于 天 均值 聚 类 而 言 ， 一 个 非常 关键 的 问题 是 选取 
的 聚 类 数量 ， 因 为 没有 关于 数据 聚集 情况 的 先 验 知 识 ， 是 人 否 选 取 合 运 的 聚 类 数目 对 天 均值 
聚 类 的 结果 有 在 很 大 的 影响 。 层 次 聚 类 最 后 会 呈现 出 一 个 树 结构 ， 算 法 本 里 不 会 给 出 聚 类 
的 数目 ， 可 以 根据 树 的 结构 划分 出 合适 的 聚 类 结 朱 。 本 章 介 绍 了 聚 关 算 法 的 基本 概念 、 聚 
类 算法 在 R 中 的 实现 ， 包 括 聚 类 数目 的 选取 、 聚 类 模型 的 构建 及 聚 类 结果 的 可 视 化 展示 。 
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第 10 章 关联 规则 
在 数据 分 析 中 ， 当 遇 到 需要 发 现 事物 中 存在 的 某 种 关系 的 时 候 会 用 到 关 
联 规则 这 种 方法 。 例 如 ， 和 餐馆 希望 知道 哪些 菜 可 以 一 起 出 售 ， 此 时 可 以 使 用 
关联 规则 来 分 析 哪 些 菜 会 被 经 常 一 起 出 售 ， 又 或 者 当 客 户 点 了 一 些 菜 ， 可 以 
利用 关联 规则 ， 推 荐 给 客户 相关 联 的 菜品 。 关 联 规则 的 思想 非常 朴素 ， 其 在 
数据 分 析 中 应 用 非常 广泛 。 


10.1 关联 规则 概述 


关联 规则 是 大 数据 问题 的 简单 解决 方案 之 一 ， 其 属于 无 监督 学 习 算法 ， 
用 于 在 没有 任何 模式 先 验 知识 的 情况 下 识别 模式 。 关 联 规则 算法 通常 会 生成 
大 量规 则 ， 一 个 新 的 问题 是 如 何 去 理 解 生 成 的 这 些 大 量规 则 ， 一 般 而 言 ， 通 
过 可 视 化 和 过 滤 技 术 对 规则 进行 理解 分 析 。 

最 初 的 关联 规则 是 Agrawal 等 人 在 1993 年 提出 的 ， 他 们 利用 大 型 零售 交 
易 数 据 ， 期 望 分 析出 用 户 可 能 会 一 起 购买 的 商品 。 关 联 规 则 是 一 种 在 看 似 无 
关 的 数据 中 查找 模式 的 方法 。 一 个 简单 的 例子 是 : 如 果 我 买 牛 奶 ， 那 么 我 也 
有 80% 购买 酸奶 的 可 能 性 。 当 然 还 有 更 多 的 例子 。 例 如 ， 在 网 站 中 的 应 用 关 
联 规 则 ， 可 发 现 强 关联 的 网 页 组 。 

关联 规则 有 两 个 部 分 ， 即 前 提 Gf) 和 结果 (then) 。 前 提 部 分 是 数据 中 
找到 的 项 目 。 结 果 是 与 前 因 结合 发 现 的 项 目 。 通 过 分 析 频 繁 的 if / then 模式 的 
数据 并 使 用 支持 度 和 置信 度 来 识别 最 重要 的 关系 来 创建 关联 规则 。 支 持 度 表 
示 项 目 在 数据 中 出 现 的 频 雍 。 置 信和 度 表 示 if / then 规则 出 现 的 次 数 。 在 数据 分 
析 中 ， 关 联 规则 对 分 析 和 预测 客户 行为 很 有 有 用。 它们 在 购物 篮 数据 分 析 、 产 
品 集群 、 目 录 设 计 和 商店 布局 中 发 挥 着 重要 作用 。 

本 章 会 介绍 关联 规则 的 基本 概念 、 关 联 规则 在 R 语言 中 的 实现 、 可 视 化 
及 应 用 。 


深入 浅 出 民 语 言 数 据 分 析 


10.2 关联 规则 的 基本 概念 


1. 关联 规则 的 原理 
WI-ih,.edo i26 HAX items H n PRE. DSt, bet, t 是 一 组 


称 为 数据 库 的 事务 。 刀 中 的 每 个 事务 都 有 一 个 唯一 的 事务 ID， 并 包含 了 中 的 项 的 子 集 。 

规则 被 定义 为 蕊 全 了 的 形式 ， 其 中 忆 Yol Mn7= 名 。 物 品 组 《对 于 短 项 目 集 ) X 
和 了 被 称 为 前 提 的 规则 。 

关联 规则 是 超过 用 户 指 定 的 最 小 支持 度 和 最 小 置信 和 度 国 值 的 规则 。 文 持 度 、 置 信和 度 和 
提升 度 的 定义 如 下 。 

LEE: MER X WIFE supp(X) 被 定义 为 包含 项 集 的 数据 集中 的 项 集 的 比例 。 

BB: 置信 上 度 表 示 在 先决 条 件 丈 有 友 生 的 情况 下 ， 由 关联 规则 蕊 一 了 推出 了 的 概率 ， 
即 conf (X >Y ) - supp(.X UY )/supp(X ). 

提升 度 : 提升 度 表 示 含 有 天 的 条 件 下 ， 同 时 含有 了 的 概率 ， 与 了 总 体 发 生 的 概率 之 比 ， 
即 Lift(.X — Y)- P(Y | X)/ P(Y). 

2. 关联 规则 的 应 用 场景 

通过 关联 规则 挖掘 、 了 解 客户 购买 行为 有 助 于 确定 问 客 户 交 叉 销 售 产 品 的 新 机 会 和 新 方 
式 。 它 用 于 个 性 化 宫 销 促销 、 更 智能 的 库存 浓 理 、 商 店 中 的 产品 放置 绩 略 及 更 好 的 客 己 天 系 
管理 。 这 个 领域 属于 关联 规则 在 零售 市 场 的 应 用 。 另 外 ， 关 联 分 析 也 被 用 于 Web 网 页 的 分 析 ， 
Web 使 用 关联 规则 可 以 推荐 相关 页 面 , 发 现 具 有 公共 引用 的 网 页 、 具 有 大 多 数 相 同 链接 (镜像 ) 
的 网 页 和 预测 性 缓存 。 关 联 规则 有 助 于 改进 网 页 设计 及 加 快 搜索 速度 。 关 联 分 析 也 被 用 于 
文本 挖 据 ， 用 于 发 现 文 本 中 关联 出 现 的 内 容 。 例 如 ， 文 本 中 的 应 用 可 以 帮助 识别 文本 到 饭 。 


10.3 在 民 语 言 中 实现 关联 规划 


本 市 使 用 到 的 数据 是 现实 世界 中 条 末 贷 店 一 个 月 所 饥 售 手机 的 数据 集 ， 这 个 数据 
集 可 以 从 以 下 链接 获取 : http: //www.sci.csueastbay.edu/~esuess/classes/Statistics 6620/ 
Presentations/ml13/groceries.csv 


在 及 语言 中 实现 关联 规则 所 使 用 到 的 包 为 arules， 关 联 规则 所 使 用 的 数据 格式 并 不 是 
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通常 的 数据 格式 ， 如 数据 框 、 向 量 。 关 联 规则 所 使 用 的 数据 结构 是 transactions 数据 结构 。 
使 用 read.transactions 将 CSV 格式 的 数据 读 取 并 转化 为 transactions 数据 结构 的 数据 ， 这 一 


份 数据 也 被 封 朔 在 arules 包 中 ， 因 此 也 可 以 直接 使 用 data(groceries) 进行 加 载 。 


library (arules) 


groceries <- 


read.transactions("http://www.sci.csueastbay.edu/-esuess/ 


classes/Statistics 6620/Presentations/mll3/groceries.csv", sep = ",") 
data (Groceries) 
summary (groceries) 


Td 


transactions as itemMatrix in sparse format with 
9835 rows (elements/itemsets/transactions) and 
169 columns (items) and a density of 0.02609146 


most frequent items: 


whole milk other vegetables rolls/buns 

2513 1903 1809 
yogurt (Other) 
1372 34055 


element (itemset/transaction) length distribution: 
sizes 


1 2 3 4 o 6 T 8 9 10 
iia 
2159 1643 1299 1005 855 645 545 438 350 246 
I5 
16 17 18 19 下 21 22 23 24 26 
46 29 14 14 9 Wl 4 6 jt 1 
Min. lst Qu. Median Mean 3rd Qu. Max. 
1.000 2.000 3.000 4.409 6.000 32.000 
includes extended item information - examples: 
labels 
1 abrasive cleaner 


2 artif. sweetener 
3 baby cosmetics 


soda 
1715 


PES T8 


28 2] 


使 用 summary( )， 可 以 展示 数据 细节 。 例 如 ，9835 笔 交 易 中 的 2513 FEE I 
whole milk, ifj 9835 E42 25 P HY 1809 7E 75 E43 rolls/buns. 2159 个 交 狐 仅 包含 1 个 购买 


的 商品 ， 


只 有 1 个 交易 购买 了 32 个 独特 商品 。 


使 用 inspect( ) 得 看 具体 的 交易 数据 ， 下 面 查 看 了 前 $ 条 交易 : 
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inspect (groceries[1:5]) 


Ld items 

arro ICE] MSS Tos Bus s a ea ior ia ue 

## margarine, 

T4 ready soups, 

T4 semi-finished bread) 
## [2] (coffee, 

## Eroapical Fruit, 

Td yogurt] 


$4 [3] (whole milk} 
## [4] (cream cheese, 


T4 meat spreads, 

## Paip Cruit 

EU yogurt] 

## [5] [condensed milk, 

LE long life bakery product, 
## other vegetables, 

id whole milk) 


使 用 itemFrequency( ) 函数 查看 项 目 所 出 现 的 频率 : 


itemFrequency(groceries[, 1:3]) 
14 abrasive cleaner artif. sweetener baby cosmetics 
Td 0.0035587189 0.0032536858 0.0006100661 


在 数据 集 上 使 用 itemFrequencyPlot( ) 函数 ， 每 个 项 目的 相对 频率 可 以 看 作 条 形 图 。 项 
目 频 率 可 以 由 支持 值 指 定 ， 即 在 总 可 能 的 事务 中 包含 {x} 的 事务 数 。 此 处 ，support = 0.1 表 
示 频 率 大 于 或 等 于 10% 的 项 目 将 显示 在 条 形 图 中 。 项 目的 频率 图 如 图 10.1 所 示 。 


itemFrequencyPlot(groceries, support = 0.1) 


项 目 频率 (相对 ) 


10.1 项 目的 频率 图 ( 1) 


19 


im 第 了 s ssim; 


itemFrequencyPlot(groceries, topN - 20) 


» 


0.20 


项 目 频率 《相对 ) 
0.10 


0.00 


aepo OD oS o A DAD ucl d oS AR e 
SONS d 
P uh SAP 

eS 


图 10.2 项 目的 频率 图 (2) 
在 图 10.1 和 图 10.2 中 ,x 轴 是 不 同 产 品 的 名 字 ， 而 y 轴 是 这 些 不 同 产 品 出 现 的 频率 。 
在 itemFrequencyPlot( ) 中 指定 参数 的 另 一 种 方法 是 使 用 参数 topN， 它 指定 从 末代 数据 中 显 
示 频 率 前 和 N 项 的 项 目 。 这 样 ， 默 认 情 况 下 ， 项 目 将 按 降序 排列 。 


10.3.1 训练 模型 
首先 ， 尝 试 使 用 eclat( ) 函数 构建 模型 ， 这 是 一 种 挖掘 数据 中 频繁 项 集 的 方法 。eclat( ) 


函数 的 第 一 个 参数 是 所 用 到 的 数据 集 ，parameter 参数 用 于 指定 相关 指标 ， 如 支持 度 、 置 信 
度 等 。 模 型 构建 好 之 后 通过 inspect( ) KAA HEU IAS. JPOHOEUBRODORISIDAH 


freq.itemsets <- eclat(groceries, parameter-list(supp-0.075, maxlen-15)) 


## Eclat 

DES 

## parameter specification: 

## ^ tidLists support minlen maxlen target ext 
## FALSE TOTS 1 15 frequent itemsets FALSE 
ub 


## algorithmic control: 
## | sparse sort verbose 
六 并 7 -2 TRUE 


## Absolute minimum support count: 737 
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## 

## create itemset 

## set transactions ...[169 item(s), 9835 transaction(s)] done [0.00s]. 
## sorting and recoding items ... [16 item(s)] done [0.00s]. 

## creating sparse bit matrix ... [16 row(s), 9835 column (s)] done [0.00s]. 
## writing ... [16 set(s)] done [0.00s]. 

## Creating S4 object ... done [0.00s]. 

inspect (freq.itemsets) 

## items support count 

## [1] {whole milk} Ü ZEBRBRISDLD dE 

## [2] (other vegetables) 0.19349263 1903 

## [3] (rolls/buns] 0.18393493 1809 

## [4] {yogurt} 0.13950178 1372 

## [5] (soda) 0.17437722 1715 


## [6] {root vegetables) 0.10899847 1072 
## [7] (tropical te 0.10493137 1032 


可 以 看 到 ， 第 出 现 的 3 种 项 目 分 别 为 whole milk, other vegetables. rolls/buns. 
然后 创建 规则 ,使 用 apriori( ) 函数 构建 关联 规则 ， 其 第 一 个 参数 是 所 用 到 的 数据 集合 ， 
parameter 用 于 指定 相应 的 指标 ， 如 项 目 要 求 最 低 有 多 少 置 信和 度 。 


groceryrules <- apriori(í(groceries, parameter = list (support = 
0.006, confidence = 0.25, minlen = 2)) 
## Apriori 
T4 
4 Parameter specification: 
14 confidence minval smax arem aval originalSupport maxtime support minlen 


Td 0.25 0.1 1 none FALSE TRUE 5 0.006 2 
$4  maxlen target ext 

Td 10 rules FALSE 

uk 


## Algorithmic control: 
14 filter tree heap memopt load sort verbose 


Td 0.1 TRUE TRUE FALSE TRUE 2 IRUP, 

TH 

## Absolute minimum support count: 59 

uk 

## set item appearances ...[0 item(s)] done [0.00s]. 

## set transactions ...[169 item(s), 9835 transaction(s)] done [0.00s]. 
14 sorting and recoding items ... [109 item(í(s)] done [0.00s]. 
## creating transaction tree ... done [0.00s]. 

## checking subsets of size 12 3 4 done [0.00s]. 

## writing ... [463 rule(s)] done [0.00s]. 

## creating S4 object ... done [0.00s]. 

groceryrules 


152 


第 10 = sen 


$4 set of 463 rules 


从 输出 的 结果 可 以 发 现 ， 这 里 一 共产 生 了 463 条 规则 。 


10.3.2 ”模型 的 评估 


合 看 规则 对 象 的 摘要 ， 要 使 用 summary( )。 它 包含 由 apriori( ) 中 的 特定 要 求生 成 的 总 
E 463 个 规则 的 信息 ， 并 分 为 3 个 可 能 的 项 集 长 度 ， 即 2 个 项 目的 150 条 规则 、3 条 项 目 
的 297 条 规则 和 4 条 项 目的 16 条 规则 。 


summary(groceryrules) 


414 set of 463 rules 

d 

## rule length distribution (lhs + rhs):sizes 

4 2 3 4 

## 150 297 16 

TË 

## Min. lst Qu. Median Mean 3rd Qu. Max. 

## 2.000 2.000 3.000 zz a le 3.000 4.000 

qd 

## summary of quality measures: 

gd support confidence Ia LE count 

$4 Min. :0.006101 Min. mE Min. sgg Min. 60.0 
tr 136 ee 0 e 007117 jc pau | 1st OQu.:1.6229 Tsc OU 70.0 
## Median :0.008744 Median :0.3554 Median :1.9332 Median 86.0 
## Mean SUIS Mean 11:53 BB Mean E sos i Mean 1s 
## 3rd Qu.:0.012303 3rd Qu.:0.4495 3rd On- 2.35965 3rd oH c IJ 
## Max. :0.074835 Max. 0.6600 Max. omo RGR Max. 736.0 
TË 

$4 mining info: 

## data ntransactions support confidence 

## groceries 9835 0.006 D 25 


使 用 inspect( ) 检查 下 面 的 前 三 个 规则 。 每 条 规则 都 包 合 (x) 一 pm Et BoXNE. 
置信 度 和 提升 度 值 之 间 关 系 的 信息 。 如 前 所 述 ， 文 持 度 测量 数据 中 频繁 出 现 的 频率 ， 置 信 
度 是 衡量 其 预测 能 力 或 准确 性 的 标准 ， 而 提升 度 则 衡量 一 个 项 目 或 项 目 集 相 对 于 其 典型 购 
买 率 的 可 能 性 。 

例如 ， 第 一 条 规则 规定 购买 potted plants 的 顾客 更 有 可 能 购买 whole milk. XH BE 5v 
示 ， 在 杂货 数据 的 所 有 交易 中 ， 购 买 potted plants 的 比例 为 0.6%， 并 且 有 条 件 表 明 ，potted 
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plants 存在 的 交易 的 40% 导致 whole milk 的 交易 。 结 末 表 明 ， 购 买 potted plants 的 顾客 购买 
whole milk 可 能 性 是 单独 购买 whole milk 的 1.56 倍 。 较 大 的 提升 度 是 一 个 强 有 力 的 指标 ， 
反映 了 规则 中 各 项 之 间 的 真实 联系 。 


inspect (groceryrules[l1:3]) 


T4 lhs rhs support confidence lift 

## [1] (potted plants) => (whole milk) 0.006914082 0.4000000 1.565460 
## [2] (pasta) => [whole milk] 0.006100661 0.4054054 1.586614 
## [3] (herbs) => (root vegetables) 0.007015760 0.4312500 3.956477 

## count 

## [1] 68 

## [2] 60 

$$ [3] 69 


10.3.3 ”提升 关联 规则 的 效果 


检查 关联 规则 集 的 有 效 方 法 是 查看 具有 更 癌 提 升 度 的 规则 ， 因 为 较 大 的 提升 度 表 
示 先 前 隐藏 在 项 之 间 的 强 连 接 。 实 现 方式 是 通过 inspect( ) 函数 得 看 结果 的 时 候 指 定 
by="lift"， 表 示 将 结果 按 提 升 度 排 序 。 例 如 ， 数 据 集中 具有 最 高 提升 度 的 规则 是 将 草药 与 
根植 物 相 关联 的 规则 ; 购买 herbs 的 顾客 购买 root vegetables 的 可 能 性 几乎 是 普通 顾客 的 
4 f. 


inspect(sort(groceryrules, by = "lift")[1:5]) 

EU lhs rhs support confidence Ig TLODCOUENC 

$$ [1] (herbs) => [root vegetables) 0.007015760 20.4312500 3.956477 69 
## [2] (berries) => (whipped/sour cream) 0.009049314 0.2721713 3.796886 


89 

## [3] (other vegetables, 

## tropical fruit, 

## whole milk} => {root vegetables} BS 007015760 


00.4107143 3.768074 69 

44$ [4] {beef, 

## other vegetables) => (root vegetables) 0.007930859 0.4020619 
3.688692 78 

$4 [5] (other vegetables, 

## tropical fruit) =>{pip fruit) 0.009456024 40.2634561 3.482649 93 


检查 数据 规则 的 另 一 种 有 效 方法 是 查看 包含 茶 特 定 规则 子 集 。 假 如 要 及 现 包 含 berries 
的 集合 ， 实 现 方 式 是 使 用 subset fft Hh items 包含 berries 的 项 目 。 如 果 要 求 一 个 人 在 特定 
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季节 制作 促销 berries 的 广告, 这 样 的 操作 将 非常 有 用 。 然 后 ,subset( ) 与 rules 对 象 一 起 使 用 ， 
以 查看 专门 包含 {berries} 的 规则 。 通 过 得 看 与 具有 最 高 提升 度 的 (berries) 相关 的 规则 列表 ， 
可 以 看 出 购买 berries 的 顾客 购买 whipped/sour cream 的 可 能 性 是 没有 有 买 过 berries 的 顾客 的 3.8 
倍 ， 购 买 yogurt 的 可 能 性 是 其 他 人 的 2.3 倍 。 在 揭示 这 些 信息 后 ， 我 们 可 以 认为 berries 和 
whipped/sour cream 可 能 是 甜 点 的 展 好 组 合 。 


berryrules <- subset(groceryrules, items $in$ "berries") 

inspect (berryrules) 

Td lhs rhs support confidence lift 

$$ [1] (berries) => (whipped/sour cream) 0.009049314 0.2721713 
3.796886 

## [2] (berries) => (yogurt) 0.010574479 0.3180428 2.279848 

## [3] (berries) => (other vegetables) 0010269446 0.3088685 
1 935280 

## [4] {berries} => (whole milk) 0O0.011794611 0.3547401 1.388328 

## count 

$$ [1] 89 

## [2] 104 

## [3] 101 

## [4] 116 


10.3.4 ”天 联 规 则 的 可 视 化 


关联 规则 可 视 化 用 到 的 包 是 arulesViz， 接 下 来 对 于 berries 的 规则 集合 进行 可 视 化 ， 如 
图 10.3 所 示 。 


library (arulesViz) 
## Loading required package: grid 
plot(berryrules,method = "graph") 


图 10.3 显示 了 关联 规则 中 的 4 条 规则 。 在 图 10.3 中 ,圆圈 颜色 越 深 ， 表 示 提 升 度 越 高 ; 
圆圈 越 大 ， 表 示 这 条 规则 出 现 的 次 数 越 多 。 这 是 关联 规则 最 直观 的 图 形 展示 ， 如 果 和 希望 深 
入 地 了 解数 据 ， 可 以 使 用 treemap 图 ， 这 些 图 形 展 示 了 每 种 类 型 的 产品 数量 ， 并 且 类 型 的 层 
次 不 断 细 化 ， 如 图 10.4 一 图 10.6 所 示 ， 显 示 了 不 同 层次 的 产品 数量 。 
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4 条 规则 的 图 形 大 小 : 支持 度 (0.009-0.012) 
颜色 -lift (1.388-3.797) 


whipped/sour cream 
d 


whole milk C boris — (Qu — Yogurt 
T 
other vegetables 


图 10.3 项 目的 频率 图 


library (tidyverse) 

library (treemap) 

occurl <- GroceriesüitemInfo $»$ group by(levell) %>% summarize (n-n()) 
occur? <- GroceriesüitemInfo $> group by(levell, level2) %>% 
summarize (n=n ()) 

occur3 <- GroceriesRitemInfo $%>% group by(levell, level2, labels) *»$ 
summarize (n=n ()) 

treemap (occurl,index=c ("levell"),vSize="n") 


n 


BÉ] 10.4 treemap Él ( 1) 


im 第 1 UL 5 ssim; 


treemap(occur2,index-c("levell", "level2"),vSize-"n") 


n 
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图 10.5 tree 


cleaner 


map 图 (2) 


treemap(occur3,index-c("levell", "labels"),vSize-"n") 


n 
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图 10.6 treemap 图 (3) 
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每 个 图 都 有 人 不同 的 深度 。 图 10.4 只 显示 更 大 的 组 名 (如 商店 的 过 道 ) ， 图 10.5 更 深入 
地 分 段 显示 产品 类 型 〈 如 在 过 道内 ) ， 图 10.6 显示 了 每 个 可 用 的 产品 。 这 种 图 形 可 以 更 加 
耳 观 地 显示 不 同 物 品 之 则 数量 的 舌 列 。 

最 后 ， 可 以 将 关联 规则 的 结果 保存 下 来 。 


write(í(groceryrules, file = "groceryrules.csv", 
sep = ",", quote = TRUE, row.names = FALSE) 


10.4 总  £ 


关联 规则 用 于 发 现 数据 中 的 潜在 联系 ， 这 种 关系 不 同 于 聚 类 算法 ， 用 相似 性 去 衡量 数 
据 之 间 的 天 系 。 关 联 规 则 是 男 外 一 个 思路 ， 其 中 包含 一 种 因果 的 概念 。 这 一 点 与 聚 关 算 法 
有 非 沼 大 的 不 同 。 关 联 规 则 想 要 表达 的 是 “如 果 A 那么 B” 的 这 样 一 种 天 系 。 衡 量 这 种 关 
系 的 指标 是 文 持 度 、 置 信 度 、 提 升 度 。 天 联 规则 的 结果 可 以 很 好 地 提供 有 价值 的 商业 建议 。 
本 章 首 先 介绍 了 关联 规则 的 基本 概念 ， 关 联 规 则 的 核心 概念 包括 文 持 度 、 置 信 度 、 提 升 度 ; 
然后 介绍 了 关联 规则 在 及 语言 中 的 实现 , 包括 构建 关联 规则 的 方法 、 关 联 规 则 的 可 视 化 方法 、 
关联 规则 的 提取 等 。 关 联 规则 是 一 种 发 现 事物 关联 性 的 非常 有 效 的 方法 ， 在 很 多 领域 都 有 
MF. 
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第 11 章 随机 和 森林 


随机 森林 模型 是 数据 分 析 中 常用 的 一 种 有 监督 的 模型 。 随 机 森林 有 比较 
好 的 泛 化 能 力 ， 当 训练 好 模型 之 后 ， 对 于 新 的 样本 ， 模 型 能 够 比较 准确 地 进 
行 预测 。 随 机 森林 是 集成 模型 ， 这 意味 当 模 型 构建 好 之 后 ， 没 办 法 理解 模型 
的 具体 运行 规则 。 因 此 ， 当 数据 分 析 任 务 要 求 模型 有 比较 好 的 可 解释 性 时 ， 
随机 森林 则 不 太 人 合适， 这 个 时 候 可 以 使 用 逻辑 回归 或 者 决策 树 等 可 解 杰 性 比 
较 好 的 模型 。 


11.1 随机 森林 的 基本 概念 


随机 森林 是 一 种 集成 的 机 器 学 习 模 型 ， 是 Bagging 算法 的 一 个 特例 ， 最 
早 由 LeoBreiman 和 Adele Cutler 提出 。 随 机 森林 包含 多 个 决策 树 ， 并 且 输 出 
结果 由 所 有 决策 树 的 结果 综合 决定 。 随 机 和 森林 的 预测 效果 非常 好 ， 因 此 在 越 
来 越 多 的 领域 都 有 应 用 ， 但 是 其 缺点 是 可 解释 性 非常 牵 。 单 个 决策 树 非常 容 
另 理解 ， 并 有 旦 能 够 很 快 地 生成 逻辑 规则 ， 但 是 许多 树 构建 而 成 的 随机 森林 则 
很 难 从 模型 中 获取 理解 。 

想 要 理解 决策 树 ， 首 先 需 要 理解 Bagging 算法 ，Bagging 算法 不 是 某 一 个 
具体 的 算法 ， 而 是 一 类 算法 。Bagging 算法 通过 很 多 基 模 型 组 合 而 成 ， 这 个 基 
模型 可 以 是 满足 条 件 的 任意 模型 。 通 过 重 抽 样 的 方式 不 断 地 抽取 数据 ， 形 成 
多 份 数 据 集 ; 然后 利用 重 抽样 的 数据 集训 练 多 个 基 模 型 ， 将 基 模 型 合并 起 来 
就 形成 了 Bagging 模型 。 合 并 的 方式 一 般 有 两 种 , 即 对 基 模 型 的 结 示 取 平 均值， 
或 者 采用 投票 的 方式 。 取 平均 值 的 方式 用 于 回归 问题 ， 投 票 的 方式 用 于 分 类 
问题 。 

Bagging 算法 的 关键 点 是 对 数据 进行 重 抽样 , 这 样 做 的 好 处 有 很 多 。 

e 每 个 袋 装 模型 具有 低 偏差 、 商 方差 。 

e 平均 或 多 数 投票 的 最 终 模型 减少 了 方差 和 偏差 。 
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减少 的 方差 有 助 于 提高 模型 的 预测 准确 性 。 


Bagging 算法 对 非 线性 函数 更 有 用 。 随 机 森林 也 是 这 样 ， 其 是 以 决策 树 为 基 模 型 的 
Bagging 算法 ， 并 且 ， 随 机 森林 有 一 个 特点 ， 即 随机 和 森林 中 构造 决 委 树 所 使 用 的 特征 并 不 古 
数据 中 的 所 有 特征 ， 而 是 随机 抽取 一 部 分 特征 ， 进 一 步 增加 了 随机 性 ， 提 高 了 模型 的 泛 化 


eu 
HU 7 J o 


随机 森林 是 Bagging 算法 的 衍生 。 构 造 随机 森林 的 过 程 如 下 。 


用 NN 表示 训练 用 例 (样本 ) 的 个 数 ，M 表示 特征 数目 。 

输入 特征 数目 m (m REGEM) ， 用 于 确定 决策 树 上 一 个 节点 的 决策 结果 。 

从 NN 个 训练 用 例 (样本 ) 中 以 有 放 回 抽样 的 方式 ,取样 NN 次 ， 形 成 一 个 训练 集 ( 即 
Bootstrap 取样 ) ， 并 用 未 抽 到 的 用 例 (样本 ) 进行 预测 ， 评 估 其 误差 。 

对 于 每 一 个 节点 ， 随 机 选择 m 个 特征 ， 决 策 树 上 每 个 节点 的 决定 都 是 基于 这 些 特征 
确定 的 。 根 据 这 m 个 特征 ， 计 算 其 最 佳 的 分 裂 方 式 。 

每 棵 树 都 会 完整 成 长 而 不 会 前 枝 (Pruning， 这 有 可 能 在 建 完 一 棵 正常 树 状 分 类 器 后 
会 被 采用 ) o 

样本 的 随机 : 从 样本 集中 用 Bootstrap 方法 随机 选取 nn 个 样本 。 


e 特征 的 随机 : 从 所 有 属性 中 随机 选取 天 个 属性 ， 选 择 最 佳 分 割 属性 作为 节点 建立 


CART 决策 树 。 


以 上 是 构造 随机 森林 的 一 个 过 程 ， 随 机 森林 的 优点 包括 : 
e GEAR; 
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可 处 理 大 量 的 输入 变量 ; 

RERA, 评估 变量 重要 性 ， 

在 建造 森林 时 ， 可 以 在 内 部 对 于 一 般 化 后 的 误差 产生 无 偏 估计 ; 

随机 森林 可 以 估计 缺失 值 ， 并 且 ， 如 果 有 很 大 一 部 分 缺失 值 ， 仍 可 以 维持 准确 度 。 
随机 森林 提供 一 个 实验 方法 ， 可 以 侦 测 变量 的 交互 作用 ， 

对 于 不 平衡 的 分 类 数据 集 来 说 ， 随 机 森林 可 以 平衡 误差 

随机 森林 可 被 延伸 应 用 在 未 标记 的 资料 上 ， 这 类 资料 通 第 使 用 非 监督 式 聚 类 ; 
随机 森林 的 学 习 过 程 快 速 。 
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11.2 R 语言 中 买 现 随机 森林 


构建 随机 和 森林 最 沿用 的 包 是 randomForest， 其 中 的 randomForest( ) 函数 用 于 构建 随机 
森林 模 型 ， 这 个 图 数 指定 的 参数 包括 : 
模型 的 公式 。 

© ntree 一 一 随机 森林 中 决策 树 的 数目 。 

e mtry 一 一 划分 决策 树 负 点 时 抽取 的 特征 数目 。 

下 面 是 一 个 简单 的 例子 。 首 先生 成 一 个 数据 集 ， 生 成 的 数据 包含 5 个 特征 、1 个 标签 ， 
然后 对 生成 的 数据 集 构建 一 个 随机 森林 模型 : 


e Formula 


library(randomForest) 

library(tidyverse) 

tmp <- data.frame{x1 = runif(100,0,1},x2 = runif(100,0,1),X3 
= runif(100,0,1),;, x4 = runiıif{100,;,0,1};x5 = runif(100,0,1), xó = 
下 UL TEL OIT sr = runi Ol xs-cerunrr ud Dc 
sample(cí(1,0),100,T)) 


tmp$y «- as.factor(tmp$y) 


rf <- randomForest(y-.,data = tmp, proximity-TRUE) 


EL 

## 

## Call: 

##  randomForest(formula = y ~ ., data = tmp, proximity = TRUE) 
Td Type of random forest: classification 
## Number of trees: 500 

## No. of variables tried at each split: 2 

gd 

zc OOB estimate of error rate: 42$ 

$4 Confusion matrix: 

Td 0 1 class.error 


## 0 38 17 0.3090909 
## 1 25 20 IE E 


从 结果 中 可 以 知道 , 随机 森林 模型 建立 的 是 一 棵 分 类 树 , 模型 一 共 构 建 了 500 棵 决策 树 。 
模型 的 外 包 估 计 误 差 为 0.42， 并 且 输 出 了 模型 的 混 请 定 阵 。 使 用 importance( ) 可 以 获取 变 
量 的 重要 性 : 


importance (rf) 
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## MeanDecreaseGini 
## x1 6.471878 
## x2 5.742519 
## x3 6.605541 
## x4 8.037574 
$4 x5 4.956472 
## x6 5.681594 
## X7 6. 05453 
## x8 4.863590 


MERPHARH, REZI EEE x3， 最 不 壬 要 的 变量 十 x8. 
varlmPlot( ) 可 以 对 变量 的 重要 性 进行 可 视 化 。 变 量 重 要 性 的 可 视 化 如 图 11.1 所 示 。 


varlImpPlot (rf) 


平均 的 基尼 系数 
图 11.1 变量 重要 性 的 可 视 化 
在 图 11.1 中 ,x 轴 表 示 通过 平均 基尼 系数 来 评判 变量 的 重要 性 ，y 轴 表 示 不 同 特征 的 平 
均 基尼 系数 。 对 模型 调用 plot( ) 函数 ， 可 以 绘制 出 不 同 数目 时 随机 森林 模型 的 误差 ， 可 以 
用 于 判断 随机 森林 中 构建 多 少 棵 树 最 合适 。 随 机 森林 误差 结果 如 图 11.2 roa 


CLOETE) 
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Ü 100 200 300 400 500 


决策 树 的 数目 
图 11.2 ”随机 森林 误差 结果 

在 图 11.2 F, x 轴 表 示 随 机 森林 模型 中 构建 决策 树 的 数目 ，y MARRIR RRE. M 
图 11.2 中 可 以 了 解 到 ， 随 机 和 森林 模型 决 集 树 的 数目 在 100 柠 左 右 时 误差 陨 达 到 了 最 小 值 。 
因此 ， 在 构建 决策 树 的 时 候 ， 可 以 选取 只 生成 100 棵 决策 树 。 随 机 森林 有 两 个 非常 关键 的 
参数 ， 一 个 是 随机 条 林 中 决策 树 的 数目 ， 故 一 个 是 决策 树 划 分 节操 时 所 选取 的 特征 数目 。 
可 以 使 用 tuneRF( ) 函数 搜寻 最 优 的 特征 数目 ， 搜 寻 结 果 如 图 11.3 所 示 。tuneRF 的 几 个 关 
健 参 数 如 下 。 

@ x: 训练 模型 所 用 的 特征 。 

e y: 标签 。 
@ mtryStart: mtry 从 多 少 开 始 搜索 。 
© ntreeTry: 随机 森林 模型 有 多 少 棵 树 。 
€ stepFactor: 每 次 迭代 的 间隔 是 多 少 。 
然后 使 用 tuneRF 训练 模型 ， 寻 找 最 优 的 mtry: 


set.seed(1) 

mtry <- tuneRF(x = tmp[,-9],y = tmp[,9]) 
## mtry = 2 OOB error = 40$ 

## Searching left ... 

## mtry = 1 OOB error = 40$ 

## 0 0.05 

## Searching right ... 
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## mtry = 4 OOB error = 52$ 
## -0.3 0.05 


外 包 误 差 率 


1 2 4 
mitry 
图 11.3 ”搜寻 结果 

在 图 11.3 F, x 轴 表 示 诀 案 树 中 可 以 用 来 构建 决 案 树 的 数目 ，?》 轴 表 示 模 型 的 外 包 误 到 
x., MB 11.3 中 可 以 发 现 ， 当 选取 的 特征 数目 为 1 或 者 2 时， 模型 的 误差 是 最 小 的 。 然 后 
可 以 指定 最 优 的 参数 重新 构建 模型 。 

构建 好 模型 之 后 可 以 进行 预 出 ， 预 测 使 用 的 是 predict( ) 函数 ， 其 中 type 参数 用 于 指定 
最 后 的 预测 结果 是 概率 值 还 是 分 类 结果 , 如 果 设 置 的 是 "response"， 则 会 返回 分 类 结果 ， 如 
有 果 是 "prob"， 则 会 返回 样本 是 不 同类 别 的 概率 值 。 

pre <- predict(rf,newdata = tmp,type = "prob") 

pre $»5$ head(3) 

Td 0 1 

## 1 0.268 0.732 

## 2 0.170 0.830 

## 3 0.216 0.784 

这 样 就 得 到 模型 的 预测 结果 了 。 接 下 来 使 用 ISLR 包 中 的 Caravan 数据 集 来 重新 构建 模 
型 ,该 数据 包含 5822 个 真实 客户 记录 ,每 个 记录 由 86 个 变量 组 成 ,包含 社会 人 口 统计 数据 ( 变 
量 1 ~ 43) 和 产品 所 有 权 《〈 变 量 44 — 860 。 社 会 人 口 统计 学 数据 来 自 邮政 编码 。 生 活 在 
具有 相同 邮政 编码 的 区 域 的 所 有 客户 具有 相同 的 社会 人 口 学 属性 。 变 量 86 (购买 ) 表示 客 
性 是 否 购 买 了 大 办 车 保险 单 。 期 户 退 过 模型 的 构建 ， 进 行 预测 ， 判 断 用 户 是 否 会 购买 大 办 
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车 的 你 险 。 痛 先 准 备 数据 ， 使 用 createDataPartition( ) 图 数 创建 训练 集 和 验证 集 ， 在 变量 “ 购 
买 ” 上 拆 分 80/20% 的 数据 ， 这 样 做 是 为 了 保证 训练 集 与 测试 集 的 标签 比例 一 致 。 采 用 这 种 
方法 允许 验证 集 使 用 80% 的 数据 构建 模型 ， 并 使 用 剩余 的 20% 来 验证 模型 的 结果 。 


set.seed(1l) 

#load the data 

my data «- ISLR::Caravan 

split data into predictors and response, train and validate 
duse times = 2 for train, val and test 


# create train and validate data sets using caret 80/20 split 


train index «-caret::createDataPartition(my data$Purchase, p-.8, 
和 
times = 1) 


Erain DE <- dE EPIS] 
validate DODF <- my datal-train index, | 


train y «- train DFSPurchase 
| 


validate y <- validate DF$5Purchase 
validate k < API: Selectiva lida Ee DE, s EHEChgsE 


划分 好 数据 集 之 后 可 以 进行 建 模 ， 这 里 使 用 函数 randomForest( ) 构建 模型 ， 使 用 包 中 
的 varImpPlot( ) 函数 以 图 形 方式 显示 模型 中 变量 的 重要 性 ， 如 图 11.4 所 示 。 当 构建 模型 时 ， 
4i WES importance=TRUE， 那 么 就 会 显示 两 种 变量 的 重要 性 ， 即 基于 分 类 精度 的 重要 
性 和 基尼 指数 的 重要 性 ， 如 果 设 定 参数 importance=False， 则 只 会 显示 基尼 指数 的 重要 性 。 


EE momste Lr ean 
y=train_y, 
importance-TRUE, 
na.action-na.exclude) 
variImpPlot(rf modell) 
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rf model1 
HER JS: 5: 
VBBH vi 9 
M ^ V D 
MAC V : 
Me. n 9 
由 € V rm 
M zB M 9 
VRIE V o 
MB E MA | 
yas | ; 
TUF j 
VAL V 9 
vir Mi 6 
ME | Q 
y | 3 
JE / ; 
VE yF 2 
MSKE MI 9 
X X 
8 10 12 14 16 0 5 10 15 
平均 下 降 精 度 平均 下 降 基尼 系数 


图 11.4 ”变量 的 重要 性 


图 11.4 包含 两 个 子 图 ， 这 两 个 子 图 的 y 轴 代表 不 同 的 特征 ，x 轴 分 别 表示 通过 平均 下 


降 精 度 和 平均 下 降 基 尼 系 数 来 衡量 特征 的 重要 性 。 使 用 构建 好 的 模型 对 测试 数据 进行 预测 ， 

模型 将 返回 测试 数据 的 预测 概率 。 使 用 这 些 概率 ， 生 成 同 量 pred_y， 通 过 以 5096 概率 分 割 
选择 值 来 为 每 个 狐 观 察 值 分 配 类 。 使 用 这 个 新 的 同 量 ， 将 它 和 目标 类 实际 啊 应 传 速 给 caret 
包 中 的 confusionMatrix( ) 函数 ， 并 生成 准确 度量 。 这 里 使 用 caret 包 中 的 confusionMatrix( ) 
来 构建 混 消 和 矩阵 。confusionMatrix( ) 函数 的 第 一 个 参数 是 模型 的 预测 值 ， 第 二 个 参数 是 模 
型 的 真实 值 。confusionMatrix( ) 函数 的 输出 信息 非常 丰 襄 ， 包 含 了 很 多 关于 模型 的 指标 。 
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#use the validation set to build predictions 


*preds for validation set, confuion matrix 
validate preds <- predict(rf modell, newdata-validate x, type-"prob") 


pre S TEE OE 


for(i in ll newulvalidater Predah] 
if (validate preds[i] >= 0.5){ 
#do something 


pred y[i] = "No" 
} else { 
mesmeb spa] s se 


} 


} 
pred y <- factor (pred y, levels = c("No", "Yes")) 


# build confusion matrix from predictions 
sispesqe COn US abe elt eei swell vue le) 
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## Confusion Matrix and Statistics 


## 

## Reference 

## Prediction No Yes 

FH No 1080 66 

Uu Yes 14 

## 

Td Accuracy : 0.9312 
## 95% CI : (0.9151, 0.9451) 
Td No Information Rate : 0.9407 
## P-Value [Acc > NIR] : 0.9208 
## 

## Kappa : 0.0474 
##  Mcnemar's Test P-Value : 1.184e-08 
## 

T4 Sensitivity : 0.98720 
id Specificity : 0.04348 
## Pos Pred Value : 0.94241 
Lu Neg Pred Value : 0.17647 
Td Prevalence : 0.94067 
T Detection Rate : 0.92863 
T4 Detection Prevalence : 0.98538 
## Balanced Accuracy : 0.51534 
td 

## 'Positive' Class : No 

Td 


从 结果 中 可 以 看 出 ， 模 型 的 预测 精度 非常 高 〈 约 0.93) ， 模 型 效果 不 错 。 


11.3 总 结 


随机 森林 因为 其 优秀 的 预测 能 力 而 被 广汉 应 用 ， 它 是 一 种 集成 的 机 喜 学 习 模 型 ， 基 模 
型 是 决策 树 ， 是 Bagging 模型 的 一 个 特例 。 随 机 森林 模型 与 Bagging 模型 一 样 采 用 了 重 抽 
样 的 方式 生成 多 份 数 据 集 ， 并且 在 构造 决策 树 的 时 候 ， 随机 选取 一 部 分 的 符 征 划分 决 寅 树 。 
这 样 做 的 好 处 是 进一步 增 大 了 不 同 模 型 之 间 的 区 别 。 随机 和 森林 也 被 应 用 于 生存 分 析 的 领域 ， 
在 之 前 的 章节 介绍 过 。 随 机 森林 性 能 优良 ， 在 其 他 领域 同样 有 应 用 。 
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第 12 章 XSH 
支持 向 量 机 是 机 器 学 习 中 非常 受 欢 迎 的 一 种 有 监督 的 机 器 学 习 模型 ， 其 
各 第 被 用 于 机 器 视觉 、 图 像 分 类 等 领域 。 支 持 向 量 机 的 原理 并 不 复杂 ， 但 是 
在 构建 支持 向 量 机 模型 的 时 候 ， 有 许多 参数 需要 调整 ， 但 是 构建 优秀 的 支持 
向 量 机 模型 需要 对 模型 原理 、 参 数 要 有 充分 的 理解 ， 并 且 支 持 向 量 机 存在 核 
技巧 , 用 于 解决 非 线性 问题 。 如 何 选取 合适 核 函 数 ， 同 梓 需 要 一 定 的 专业 知识 。 
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文 持 同 量 机 (Support Vector Machine, SVM) 是 机 器 学 习 中 一 种 有 监督 
的 复 法 ， 可 以 用 于 解决 分 类 和 回归 问题 。 文 持 问 量 机 是 将 数据 映射 成 空间 中 
的 点 ， 这 个 映射 要 形成 一 个 足够 宽 的 间隔 ， 将 数据 区 分 开 来 。 对 于 新 样本 ， 
其 映射 在 间隔 的 哪 一 边 束 划分 成 为 对 应 的 类 别 。 如 果 数 据 不 能 够 线性 分 类 ， 
文 持 问 量 机 可 以 通过 核 技 巧 将 数据 映射 到 高 维 空 间 ， 然 后 在 高 维 空 间 对 其 进 
行 区 分 。 另 外 ， 文 持 回 量 机 也 可 以 解 块 非 监督 的 问题 ， 有 一 种 基于 文 持 问 量 
机 的 聚 类 算法 ， 文 持 同 量 聚 类 。 非 监督 的 部 分 不 在 本 章节 的 介绍 范围 之 内 。 
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态 斯 及 明 的 ， 并 逐渐 被 应 用 于 解雇 分 类 和 回归 的 问题 ， 但 是 当时 文 持 同 量 机 
对 非 线性 关系 的 数据 并 没有 很 好 的 区 分 能 力 。 在 1992 年 ,研究 者 提出 了 核 技巧 ， 
用 于 创建 非 线 性 分 类 ， 解 决 数据 中 的 非 线 性 问题 。 之 后 ， 支 持 问 量 机 得 到 了 
越 来 越 广泛 的 应 用 。 应 用 领域 包括 : 

e 文本 分 类 。 

@ 图 像 识 别 。 

@ 手写 字体 识别 。 

e 医学 中 基因 、 有 蛋白 质 的 分 类 。 

文 持 回 量 机 有 很 好 的 预测 效果 ， 是 解决 分 类 和 回归 问题 的 优秀 方 法 。 


1. 支持 向 量 机 的 定义 

文 持 同 量 机 是 一 种 有 监督 的 机 器 学 习 算 法 , 可 用 于 回归 和 分 类 ,但 是 更 第 用 于 分 类 问题 。 
文 持 问 量 机 通常 也 称 为 “大 边 距 分 类 磊 ”。 更 正式 地 说 ， 文 持 癌 量 机 是 在 高 维度 或 者 无 限 
维度 中 构造 超 平面 ， 进 一 步 区 分 样本 的 方法 。 分 类 的 边界 离 最 近 的 训练 数据 点 越 远 越 好 。 

2. 文 持 问 量 机 的 工作 原理 

在 深入 探讨 文 持 辣 量 机 之 前 ， 需 要 先 介 绍 一 些 基本 概念 。 

超 平面 是 一 个 局 平子 空间 ， 其 尺寸 比 它 所 代表 的 坐标 系 的 尺寸 小 一 格 。 

在 2 维 空间 中 ， 超 平面 是 4 + 4X +t AX, = 0 形式 的 线 ; TE m 维 空间 中 ， 超 平面 的 
形式 为 4 + AX, +4X, ++ A X,=0。 
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回 量 是 最 接近 分 离 超 平 面 的 数据 氮 ， 如 人 条文 持 回 量 发 生 改 变 ， 则 相应 的 超 平 面 也 会 发 生 
改变 。 

一 个 数据 空间 中 存在 很 多 超 平面 ， 如 图 12.1 所 示 。 模 型 所 选择 的 超 平面 是 具有 最 大 间 
ia (Maximun Margin) 的 超 平面 ， 即 超 平面 与 文 持 回 量 垂直 时 的 超 平 面 。 


ab m. 


= 


No RR 
"S /最 大 间隔 “ 
ud 、 


图 12.1 支持 向 量 机 超 平面 


思想 很 容易 理解 ， 但 是 往往 没有 办 法 通过 线性 的 方式 对 数据 进行 划分 ， 这 个 时 候 就 需 
要 使 用 核 技巧 。 
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3. 核 技 巧 
文 持 回 量 机 能 够 使 用 简单 而 优雅 的 核 技巧 来 拟 合 非 线 性 边界 。 简 单 来 说 ， 它 将 数据 投 
影 到 更 高 的 维度 ， 可 以 通过 超 平 面 分 隔 ， 然 后 投射 回 更 低 的 维度 ， 如 图 12.2 所 示 。 


RERI ra 28 faj ER. 
图 12.2 ”支持 向 量 机 核 技巧 
在 这 里 ， 我 们 可 以 设想 每 个 数据 点 Go y) 的 额外 特征 z， 其 中 2 =x Hy 
常用 的 核 包括 rbf. poly 等 ， 它 们 将 数据 投影 到 更 高 的 维度 ， 进 而 可 以 划分 超 平 面 。 
文 持 问 量 机 答 试 同时 实现 以 下 两 个 分 类 目标 : 
@ 最 大 化 边界 。 
e 尺 可 能 正确 地 区 分 数据 点 。 
因此， 在 定义 损失 函数 的 时 候 ， 需 要 考虑 “减少 的 边际 ”和 “未 正确 分 类 的 数据 点 ” 
造成 的 损失 。 有 超 参 数 可 以 设置 为 两 者 之 间 的 权衡 。 
一 般 情 况 下 ， 文 持 问 量 机 的 超 参 数 如 下 。 
€ Kernel: Linear, rbf (上 默认) , poly ¥, XP rbf fe poly 主要 用 于 非 线 性 超 平面 。 
@ C(error rate); 对 错误 分 类 的 数据 点 的 惩罚 。 它 控制 了 更 平滑 的 决策 边界 与 测试 数据 
一 致 性 之 间 的 权衡 。 
e Gamma: 内 核 的 核 系数 (rbf, poly 等 ) 。 值 越 高 ， 越 接近 于 过 度 拟 合 。 
@ epsilon: 其 越 大 ， 表 示 在 容忍 范 围 内 分 错 的 数据 不 会 被 惩罚 ; 反之 ， 其 越 接近 0， 
每 一 个 分 错 的 数据 都 会 被 惩罚 。 
接 下 来 介绍 在 及 语言 中 实现 文 持 同 量 机 的 方法 ， 并 进一步 分 析 支 持 癌 量 机 超 参 数 的 含 
义 及 参数 调整 方式 。 
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在 这 一 部 分 , 使 用 melbench 包 中 的 Glass AH S 2K SCA xc EN 这 是 一 个 分 类 问题 ， 
数据 集 包 含 了 6 种 玻璃 材质 的 化 学 元 素 含 量 ， 一 共有 214 条 数据 、10 个 特征 。 实 现 文 持 回 
量 机 的 包 是 e1017， 通 过 svm() 函数 构建 支持 向 量 机 。 

首先 准备 好 数据 : 


library (mlbench) 
data (Glass) 


head (Glass, 3) 

d RI Na Mg Al E K Ca Ba Fe Type 
## 1 1.52101 13.64 4.429 1.10 71.78 0.06 8.75 0 0 i 
Rt 2 1.51761 713.89 3.50. 1.36 72.73 0.48 7.83 0 0 l 
## 3 1.51618 13.53 3.55 1.54 72.99 0.39 7.78 0 0 I 
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与 测试 集合 ， 划 分 比例 为 8/2. 


smp.size - floor(0.8*nrow(Glass)) 

set.seed(1) 

train.ind = sample (seq len i{nrow(Glass)),;, smp.size) 
train = Glass[train.ind, ] # 800% 

test = Glass[-train.ind, ] # 20€ 


下 面 即 可 开始 构建 文 持 回 量 机 ， 构 建文 持 回 量 机 所 用 的 函数 是 e1071 中 的 svm( ) 函数 ， 
然后 使 用 默认 参数 构建 一 个 文 持 问 量 机 模型 ， 第 一 个 参数 是 模型 的 公式 ， 使 用 Type 作为 因 
变量 ， 使 用 数据 的 其 他 特征 作为 自 变 量 ， 第 二 个 参数 就 是 构建 模型 所 使 用 的 数据 集 。 构 建 
好 模型 之 后 ， 使 用 summary( ) 查看 模型 的 详细 信息 : 


library(e1071) 

model = svm(formula = Type ~ .,data = train) 
summary (model) 

td 

## Call: 

## svm(formula = Type ~ ., data = train) 

T4 

## 


aÒ 
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44 Parameters: 


## SVM-Type: C-classification 
44  SVM-Kernel: radial 

$4 cost. I 

Ui gamma:  0.1111111 

## 

## Number of Support Vectors: 144 
## 

## ( 46 53 13 15 7 10 3 

## 

## 

## Number of Classes: 6 

## 

## Levels: 


## 123567 


从 模型 结果 可 以 看 出 ， 构 建 的 古 分 类 模型 ， 使 用 的 核 函数 十 radial， 其 中 cost 参数 为 1， 


gamma 参数 为 0.111， 一 共有 144 个 文 持 同 量 。 构 建 好 模型 之 后 ， 接 下 来 评估 模型 ， 使 用 
predict( ) 函数 预测 结果 ， 然 后 使 用 table( ) 函数 建立 预测 值 与 真实 值 的 列 联 表 。 


train.pred = predict {model, train) 
test.pred = predict (model, test) 


table(real-trainSType, predict-train.pred) 
## predict 


## real 1 2 3 5 6 7 
## Cos E: M g p 
## 2 12 50 0 0 0 Ù 
Td 3 6 9 0 Q O0 QÙ 
uk 5 0 cxt 
## npo Dp T OU 385 a 
T4 7 10 0 0 0 26 


Ert 15 25 AR SX VIZ SE MARIK. W, ARTAR IS — 26 


指标 ， 这 里 使 用 caret 包 中 confusionMatrix( ) 函数 计算 指标 。 
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caret::confusionMatrix(table(real-train$Type, predict-train.pred)) 
## Confusion Matrix and Statistics 

## 

UE predict 

$4 real 1 2 3 5 6 7 

Td TW cp Dg B 

Td 2 12 50 0 0 0 0 
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d 3 6 9 0 D 0 0 

## SD D PD Jp 

## 6 0 1 0 0 6 0 

## T a o E a E a 25 

id 

j£ Overall Statistics 

## 

Td Accuracy : 0.7661 

Td 95 CI : (0.6954, 0.8273) 

Td No Information Rate : 0.4152 

## P-Value [Acc > NIR] : < 2.2e-16 

ui 

gd Kappa : 0.6758 

$4  Mcnemar's Test P-Value : NA 

ud 

## Statistics by Class: 

id 

id Class: 1 Class: 2 Class: 3 Class: 5 Class: 6 Class: 7 
$4 Sensitivity 0.6724 0.7042 NA 1.00000 1.00000 1.0000 
## Specificity 0.9027 0.8800 0.91228 1.00000 0.99394 0.9931 
## Pos Pred Value 0.7800 0.8065 NA 1.00000 0.85714 0.9630 
$4 Neg Pred Value 0.8430 DR NA 1.00000 1.00000 1.0000 
$4 Prevalence 0.3392 0.4152 0.00000 0.05848 0.03509 0.1520 


$$ Detection Rate 0.2281 0.2924 0.00000 0.05848 0.03509 goo 
## Detection Prevalence 0.2924 0.3626 0.08772 0.05848 0.04094 p 


## Balanced Accuracy 0.7875 0.7921 NA 1.00000 0.99697 DES 
可 以 得 到 训练 集合 的 评估 结果 ， 准 确 度 为 76%， 然 后 使 用 测试 集合 来 评估 模型 的 泛 化 
VR. 


caret::confusionMatrix(table(real-testSType, predict-test.pred)) 
## Confusion Matrix and Statistics 

ub 

## predict 

## real 1 2 3 5 6 7 

## 1 
td 
uu 
ub 
24 
Td 
Tg 
$4 Overall Statistics 

ub 

id Accuracy : 0.6977 

ub CT RU sgh. Uls282) 


-] Oy O! w TD Hn! 
O | ON UU OO 
F^Ontd|s:Qo ^trHm b 
LORS EQUES OE ES 
Cx C E UES 
adao ES EJ ES ES 
ÉHD|!|ooOooococo 
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## 


No Information Rate : 0.5116 
P-Value [Acc > NIR] : 0.01036 
Kappa : 0.5181 
Mcnemar's Test P-Value : NA 
Statistics by Class: 
Class: 1 Class: 2 Class: 3 Class: 5 Class: 6 Class: 7 
Sensitivity 0.7273 0.6471 NA 0.66667 NA E CODON 
t Specificity 0.8095 0.8846 0.95349 0.97500 0.95349 0.97619 
t Pos Pred Value 0.8000 0.7857 NA 0.66667 NA 0.50000 
Neg Pred Value 0.7391 0.7931 NA 0.97500 NA 1.00000 
Prevalence 0.5116 0.3953 0.00000 0.06977 0.00000 0.02326 
Detection Rate 0.3721 0.2558 0.00000 0.04651 0.00000 0.02326 
Detection Prevalence 
0.4651 0.325060 0.04651 0.06977 0.04651 0.04651 
Balanced Accuracy 
0.7684 0.7658 NA 0.82083 NA 0.98810 


测试 集合 的 结果 表明 测试 精度 为 69.77%。 模 型 效果 可 以 接 有 党。 这 里 只 是 使 用 默认 参数 
构建 模型 ， 进 一 步调 整 参 数 ， 和 争取 让 模型 表现 得 更 好 。 

文 持 问 量 机 需要 调整 的 参数 不 少 , 首先 需要 了 解 参数 的 舍 义 , 然后 才能 更 好 地 调整 参数 。 
下 面 对 e1071 的 参数 做 一 个 总 结 。 


type: 决定 支持 向 量 机 是 用 于 解决 分 类 问题 还 是 回归 问题 。 

scale: 将 数据 标准 化 。 

kernel: 选择 支持 向 量 机 的 核 函 数 ， 包 括 linear, polynomial, radial basis、sigmoid。 
cost: 决定 给 分 错 的 数据 多 少 惩罚 。 

epsilon: 这 个 值 越 大 ， 表 示 容 妨 范 围 内 的 分 错 的 数据 不 会 有 惩罚 ， 如 果 接 近 0， 则 
表示 每 一 个 分 错 的 数据 都 会 有 惩罚 。 

gamma: 核 函 数 相 关 的 参数 (linear() 函数 除外 ) 。 


首先 介绍 cost 参数 。 文 持 癌 量 机 的 目标 是 寻找 一 个 完美 的 超 平 面 ， 将 数据 分 开 。 但 是 
如 条 一 味 地 妃 求 区 分 开 数 据 ， 则 很 容易 造成 过 拟 合 的 风险 。 于 是 ， 文 持 回 量 机 在 后 续 的 发 
展 中 加 入 了 软 边 界 (Soft Margin) ， 人 允许 支持 同 量 机 有 一 些 被 分 错 的 样本 。 

在 软 边 界 文 持 同 量 机 的 损失 函数 中 ， 束 加 入 了 cost， 用 于 惩 记 那些 被 分 错 的 样本 。cost 
越 大 ， 则 容错 能 力 越 小 ， 模 型 越 不 能 容 钨 分 错 样本 。cost 越 小 ， 容 错 能 力 越 大 。 

如 图 12.3 所 示 ， 圆 圈 表 示 支 持 疝 量 ， 当 cost 为 1000 时 ， 支 持 疝 量 几 乎 都 在 线 上 ， 当 
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12.3 ”支持 向 量 机 决策 边界 


使 用 前 文 的 Glass 数据 构建 文 持 同 量 机 模型 ， 并 且 调 整 cost。 下 面 的 代码 计算 了 采用 不 
E] cost 参数 构建 模型 的 文 持 回 量 的 数量 ， 然 后 进行 绘图 。 调 整 结束 如 图 12.4 所 示 。 


num.SV = sapply(X-1:1000, 
FUN-function(C) svm(Type-., Glass, cost-C, epsilon -.1)S5tot.nSV) 


plotí(x-1:1000, y-num.SV, xlab-2"cost", ylab-2" support vectors", pch-169, 
cex-.5) 


在 图 12.4 F, cost 代表 参数 cost 的 不 同 取 值 ，support vectors 表示 文 持 同 量 机 模型 
中 支持 向 量 的 数量 。 从 图 12.4 中 可 以 看 到 ，cost 越 大 ， 支 持 向 量 的 数目 越 小 ， 决 策 边界 
RE, 

下 面 介 绍 epsilon 参数 ， 这 个 参数 主要 影响 的 是 SVR， 而 不 是 SVM。epsilon 创造 一 
个 容 息 区间， 这 个 区 间 的 数据 会 被 忽略 挥 ， 如 图 12.5 所 示 ， 区 间 内 的 数据 不 会 被 模型 所 
利用 。 

通 币 而 言 ，epsilon 越 大 ， 容 八 区 间 越 大 ， 则 越 多 的 数据 会 被 忽视 挥 。epsilon 太 大 ， 容 
易 造成 模型 的 欠 拟 合 。epsilon 越 小 ， 趋 近 于 0， 则 所 有 的 数据 都 会 被 考虑 到 ， 这 个 时 候 可 
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图 12.5 ”容忍 区 间 


下 面 举 例 说 明 。 首 先 随 机 生成 一 个 回归 数据 集合 ， 然 后 构建 SVR 模型 ， 进 一 步 计 算 不 
同 epsilon 对 应 模型 的 支持 问 量 数据 ， 最 后 进行 可 视 化 展示 ， 如 图 12.6 所 示 。 
df = data.frame(x-1:20, 
1 


num.SV = sapply(X-seq(0,1,0.01), 
FUN-function(e) svm(y-x, df, cost-1, epsilon -e)5tot.nSV) 


plot(x-seq(0,1,0.01), y-num.SV, xlab-"epsilon", ylab-" support 
vectors", pch-216) 
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0.0 0.2 0.4 0.6 0.8 1.0 
epsilon 


图 12.6 epsilon 与 支持 向 量 的 关系 
从 图 12.6 中 可 以 看 到 ，epsilon 越 大 ， 容 妨 区 间 越 大 ， 文 持 问 量 越 少 。 
下 面 查看 模型 误差 与 epsilon 的 关系 ， 如 图 12.7 所 示 。 


RMSE = sapply(X-seq(0,1,0.01), 
FUN-function(e) sqrt(mean((svm(y-x, df, cost-1, epsilon 
—-e)Sresiduals)^2))) 


plotí(x-seq(0,1,0.01), y-RMSE, xlab-"epsilon", ylab-"RMSE", pch-16, 
cex-.5, main-"RMSE in SVR") 


y4 支持 向 量 回归 的 均 方 误差 
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图 12.7 epsilon 与 误差 的 关系 
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从 图 12.7 中 可 以 看 到 ，epsilon 越 大 ， 模 型 的 误 基 越 入 ， 说 明 这 个 时 候 模 型 存在 欠 拟 合 


现象 。 


最 后 介绍 gamma。 这 个 是 与 核 水 数 相 天 的 参数 ， 主 要 是 polynomial. radial asis(RBF) 


和 sigmoid。 当 gamma 比较 大 时 ， 模 型 容易 过 拟 合 ， 当 gamma 比较 小 时 ， 模 型 容易 欠 拟 合 。 


在 构建 模型 的 时 候 调 整 gamma 值 ， 以 比较 模型 的 训练 误 关 和 训 试 误 甜 ， 结 末 如 图 12.8 


所 示 。 
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train.accuracy = sapply(X-seq(0.1,10,0.1), 
FUN-function (g)(í( 
model - svm(Type-., train, gamma-g, epsilon 
—-.1) 
pred - predict(model, train) 
confus.matrix = table(real-train$Type, predict-pred) 
sum(diag(confus.matrix))/sum(confus.matrix) 
) 
) 
test.accuracy = sapply(X-seq(0.1,10,0.1), 
FUN-function (可 ) 1 
model = svm(Type-., train, gamma-g, epsilon 
= .1) 
pred = predict (model, test) 
confus.matrix = table(real-test$Type, predict=pred) 
sum(diag(confus.matrix))/sum(confus.matrix) 
} 
) 


plot (x=seg (0.1,10,0.1), v-trarn.accuracy, pch=16, CeX= .5 col red, 
ylim-c(0,1),xlab-2-"gamma ", ylab-"Class Accuracy", main-"Accuracy in 
soft-margin SVM") 

points(x-seq(0.1,10,0.1), y-test.accuracy, pch-16, cex-.5, col-"blue") 


legend("bottomright", pch = 16, col = c("red","plue"),legend-c("Train 
Accuracy", "Test Accuracy")) 


。 训 练 精度 
。 测 试 精度 


分 类 精度 
0.0 0.2 04 0.6 0.8 1.0 


0 2 4 6 8 10 
图 12.8 gamma 与 模型 准确 度 的 关系 
从 图 12.8 中 可 以 看 到 ， EH gamma 增加 ， 训练 数据 的 准确 度 不 断 升 高 ， 但 是 测试 数据 
的 准确 度 降 低 了， 表示 模型 产生 了 过 拟 合 问题 。 


12.3 总 结 


文 持 同 量 机 是 机 融 学 习 中 较 重 要 的 算法 之 一 ， 其 在 分 类 及 回归 问题 上 都 有 非常 不 错 的 
表现 。 想 要 充分 友 挥 文 持 癌 量 机 的 优势 ， 需 要 对 文 持 问 量 机 的 很 多 细 市 了 解 得 很 消 楚 ， 进 
行 有 效 的 参数 调整 。 因 此 ， 往 往 使 用 支持 癌 量 机 构建 优秀 的 模型 会 更 加 困难 。 本 前 介 绍 了 
文 持 问 量 机 的 基本 概念 、 实 现 方 法 及 文 持 问 量 机 的 主要 参数 。 


第 13 章 神经 网 络 


神经 网 络 模 型 是 一 种 有 监督 模型 ， 现 在 人 们 和 常常 所 说 的 深度 学 习 本 质 上 
也 定神 经 网 络 模型 。 数 据 分 析 项 目 对 模型 的 精度 有 非常 高 的 要 求 ， 并 且 所 需 
数据 量 非常 大 , 这 个 时 候 会 用 到 神经 网 络 。 神 经 网 络 模型 要 求 有 充足 的 数据 量 ， 
只 有 在 数据 量 充 足 的 时 候 ， 神 经 网 络 模型 的 效果 才能 充分 地 发 挥 出 来 ， 当 数 
据 量 比较 小 时 ， 神 经 网 络 模型 的 效果 也 许 不 如 次 辑 回归 模型 。 因 此 ， 对 于 数 
据 量 不 大 的 数据 分 析 项 目 , 用 逻辑 回归 模型 建 模 也 许 就 够 了 。 但 是 对 于 大 数据 ， 
神经 网 络 模 型 的 效果 就 会 远 优 于 逻辑 回归 模型 。 


13.1 概 。 x 


在 机 器 学 习 和 认 知 科学 中 ， 人 工 神 经 网 络 〈Artificial Neural Network, 
ANNO 是 一 系列 受 生物 神经 网 络 ( 动 物 的 中 枢 神 经 系统 ， 特 别 是 大 脑 》 局 友 
的 统计 学 习 模 型 ， 用 于 估计 或 近似 函数 。 神 经 网 络 的 基本 单位 是 神经 元 ， 神 
经 元 之 间 相 互 连 接 ， 形 成 了 神经 网 络 。 神 经 网 络 的 结构 非常 复杂 ， 神 经 网 络 
模型 通常 有 很 糟 粽 的 可 解释 性 ， 但 是 其 优势 是 模型 的 预测 能 力 非常 好 ， 并 且 
能 够 很 好 地 描述 数据 间 复 杂 的 非 线 性 关系 。 神 经 网 络 模型 用 于 解决 很 多 问题 ， 
如 图 像 识别 及 语 首 识别 ， 这 些 问 题 很 难 用 传统 的 统计 模型 解决 ， 但 是 ， 神 经 
网 络 模型 能 很 好 地 解决 这 类 问题 。 

神经 网 络 起 源 于 1943 E, RE * ZR SUBIRE BP M3 
于 神经 网 络 的 计算 模型 ， 神 经 网 络 开 始 应 用 于 人 工 知 能 领域 。 但 是 由 于 神经 
网 络 结构 复杂 ， 需 要 估计 的 参数 非常 多 ， 在 很 长 一 段 时 间 没 有 合适 的 方法 求 
解 神经 网 络 模型 的 参数 ， 以 及 没有 足够 的 计算 能 力 计 算出 神经 网 络 的 参数 。 
直到 1975 年 ， 出 现 了 一 个 天 键 算法 一 一 反 同 传 播 算法 ， 这 个 算法 解决 了 神经 
网 络 的 参数 求解 问题 。 到 了 2000 年 ， 随 着 计算 机 计算 能 力 的 不 断 突破 ， 深 度 
学 习 算 法 出 现 。 


直到 现在 ， 神 经 网 络 模型 在 图 像 识 别 和 语音 识别 领域 取得 了 巨大 的 成 功 。 夯 外 ， 现 在 
党 说 的 深度 学 习 其 实 就 是 神经 网 络 的 一 种 ， 其 本 质 上 是 多 层 神 经 网 络 。 

典型 的 神经 网 络 一 般 有 以 下 几 个 部 分 组 成 : 结构 、 激 励 畏 数 、 学 习 规 则 。 其 中 ， 结 构 
指 的 是 神经 网 络 中 的 拓扑 关系 ， 激 励 函 数 用 于 神经 元 输入 的 加 权 及 输出 ， 学 习 规 则 指 的 是 
神经 网 络 求解 的 方法 。 简 单 来 讲 ， 神 经 网 络 的 结构 如 图 13.1 所 示 。 

C) 由 具有 许多 互 连 节 点 的 层 组 成 〈 神 经 元 ) 。 

(2) 主要 包括 有 3 个 层次 。 

e 输入 层 。 

e 隐藏 层 。 

@ 输出 层 。 

(3) 隐藏 层 可 以 是 一 个 或 多 个 。 


图 13.1 神经 网 络 的 结构 

神经 元 是 信息 处 理 的 基本 单位 ， 是 神经 网 络 运行 的 基础 。 神 经 元 会 接受 输入， 产生 一 
个 输出 ， 神 经 网 络 的 输出 通过 激活 函数 应 用 于 神经 元 输入 的 加 权 和 来 产生 输出 。 不 同 的 激 
活 函 数 有 不 同 的 功能 。 

@ Heaviside: 当 输 出 为 0 或 1 时 。 

e Sigmoid (Logistic ) : 当 输 出 在 0 和 1 之 间 连 续 时 。 

e Softmax (J 33£ 8E) : 当 输 出 介 于 0 和 1 之 间 时 ， 所 有 输出 值 的 总 和 为 1。 

e 双 曲 正切 : 当 输 出 在 -1 和 1 之 间 连 续 时 。 


181 


深入 浅 出 民 语 言 数 据 分 析 


最 音 用 的 求解 神经 网 络 的 算法 是 有 反 同 传播 算法 。 神 经 网 络 一 般 分 为 以 下 两 大 类 。 
(1) 依照 学 习 策略 ， 包 括 : 

监督 式 学 习 网 络 ( Supervised Learning Network ) 。 

无 监督 式 学 习 网 络 (Unsupervised Learning Network ) 。 

混合 式 学 习 网 络 ( Hybrid Learning Network ) 。 

联想 式 学 习 网 络 ( Associate Learning Network ) 。 

最 适 化 学 习 网 络 ( Optimization Application Network ) 。 
(20 依照 网 络 染 构 ， 包 括 : 

e 前 馈 神 经 网 络 (Feed Forward Network ) 。 

e 北上 归 神 经 网 络 (Recurrent Network ) 。 

e 强化 式 神 经 网 络 (Reinforcement Network ) 。 

本 章节 会 介绍 如 何 使 用 R 语言 实现 普通 监督 式 神 经 网 络 模型 。 


13.2 在 民 语 言 中 实现 神经 网 络 


在 RR 语言 中 有 很 多 可 以 实现 神经 网 络 的 包 ， 如 nnet、RSNNS、neuralnet $$. KENA 
使 用 neuralnet 构建 神经 网 络 模 型 。 这 里 用 到 的 数据 集 是 MASS 包 的 shuttle 数据 集 ， 这 是 一 
个 与 航海 有 关 的 数据 集 。shuttle 数据 集 有 256 fT 7 9], Bj 6 列 是 分 类 变量 ， 第 七 列 是 标签 。 
自 先 加 载 数 据 ， 然 后 简单 地 查看 数据 。 


library (MASS) 

library(caret) 

## Loading required package: lattice 
## Loading required package: ggplot2 
library (neuralnet) 

library (vcd) 

## Loading required package: grid 
data (shuttle) 

head (shuttle) 


## stability error sign wind magn vis use 

## 1 xstab LX pp head Light no auto 

$4 2 xstab LX pp head Medium no auto 

44 3 xstab LX pp head CErong no auto 

## 4 xstab LX pp tail Light no auto 
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$4 5 xstab LX pp tail Medium no auto 
## 6 xstab LX pp tail Strong no auto 


可 以 看 到 ， 数 据 大 多 数 为 离散 变量 ， 其 中 数据 的 定义 如 下 。 

e stability: 风向 是 否 稳 定 ( stab /xstab ) 。 

© error: 错误 的 大 小 (MM/SS/LX)。， 

@ sign: 信号 是 否 错误 ， 正 面 或 负面 (pp/nn) 。 

e wind: 风 标 志 ( 头 / 尾 ) 。 

€ magn: 这 是 风力 强度 ( 光 / 中 / 强 / 超 出 范围 ) 。 

e vis: 能 见 度 (是 / 否 )。 

数据 的 标签 有 两 个 级 别 ， 分 别 是 auto 和 noauto。 进 一 步 查 看 样本 标签 的 比例 ， 期 望 样 
本 标签 古 相 到 不 多 的 ， 人 否则 会 出 现 梓 本 不 平衡 的 问题 。 


table(shuttle$use) 


## 
## auto noauto 
## 145 JO 


结果 显示 样本 标签 的 比例 还 算 比 较 平 衡 。 下 面 划 分 数据 集 ， 进 一 步 构建 模型 。 神 经 区 
络 准 备 数 据 非常 重要 ， 因 为 所 有 特征 和 标签 都 需要 是 数字 的 。 因 此 ， 分 类 变量 需要 处 理 成 
哑 变 量 。 这 里 生成 哑 变 量 的 函数 是 dummyVars( )， 这 个 函数 需要 传递 一 个 公式 ， 公 式 的 左 
边 是 数据 的 标签 ， 公 式 的 右边 是 需要 转换 成 哑 变 量 的 特征 。dummyVars( ) 函数 返回 的 结果 
是 数据 集 的 dummyVars 对 象 。 使 用 predict( ) 函数 ， 可 以 将 原始 数据 转换 成 对 应 的 哑 变 量 。 


dummies<-dummyVars (use~.,data = shuttle) 

dummies 

$4 Dummy Variable Object 

LE 

## Formula: use ~ . 

## 7 variables, 7 factors 

$4 Variables and levels will be separated by '.' 

## A less than full rank encoding is used 

shuttle.2 «- as.data.frame(predict(dummies,newdata = shuttle)) 

## Warning in model.frame.default(Terms, newdata, na.action = 
na.action, xlev 

## = objectSlvls): variable 'use' is not a factor 

head(shuttle.2,23) 

Td stability.stab stability.xstab error.LX error.MM error.SS error.XL 
## 1 0 il l 0 0 0 
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## 2 0 1 1 0 0 0 
## 3 0 l ih 0 0 0 
TH sign.nn sign.pp wind.head wind.tail magn.Light magn.Medium magn. 


## 1 0 il il 0 Jl 0 
## 2 0 Í 1 0 0 下 
## 3 0 1 1l 0 0 0 


## magn.Strong vis.no vis.yes 
## 1 0 jl 0 
## 2 0 1 0 
## 3 1 1 0 


从 结果 中 可 以 发 现 ， 原 先 的 离散 特征 现在 全 部 变 成 了 哑 变 量 ， 现 在 有 一 个 10 个 变量 的 
输入 特征 空间 。 然 后 对 标签 进行 处 理 : 对 于 use、noauto， 记 为 0， 对 于 auto, ， 记 为 1。 

可 以 使 用 ifelse( ) 函数 创建 响应 ， 其 第 一 个 参数 是 一 个 判断 条 件 ， 如 果 是 True， 则 返回 
第 二 个 参数 ， 否 则 返回 第 三 个 参数 。 


shuttle.25use <- ifelse(shuttleS$use--"auto",1,0) 
table (shuttle.25use) 


ub 
## 0 1 
## 111 145 


至 此 就 将 数据 全 部 处 理 好 了 ， 接 下 来 划分 数据 集 ， 随 机 地 将 数据 的 7096 XII) 73 VII 2 
R, 3096 划分 为 测试 集 。 用 于 划分 数据 集 的 函数 是 caret 包 中 的 createDataPartition( ) 函数 ， 
其 可 以 根据 样本 标签 的 比例 划分 数据 集 ， 也 就 是 说 ， 如 果 原 始 数 据 集 标签 的 比例 是 1 : 1， 
那么 划分 之 后 的 训练 集 与 测试 集 的 样本 标签 都 是 1 : 1， 这 样 保证 了 样本 标签 的 一 致 性 。 
createDataPartition( ) 的 第 一 个 参数 吓 原 始 数 据 的 标签 ，p 代表 训练 集 的 比例 ，list 指定 返回 
的 是 否 是 列表 ，times 表示 生成 几 个 划分 结果 。 


set.seed (123) 

trainIndex <- createDataPartition(shuttle.29use, p = 0.7, list = FALSE, 
times = 1) 

shuttleTrain <- shuttle.2[trainIndex,] 

table(shuttleTrainSuse) 


## 
## 0 1 
## 81 99 
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shuttleTest <- shuttle.2[-trainIndex,] 
table(shuttleTest$use) 


T4 
## 0 1 
## 30 46 


到 这 里 ， 训 练 集合 与 测试 集合 束 划 分 好 了 ， 接 下 来 开始 构建 神经 网 络 模型 。 


13.2.1 构建 神经 网 络 模型 


构建 神经 网 络 模 型 所 使 用 的 包 是 neuralnet， 构 建 神经 网 络 模 型 的 函数 也 是 neuralnet( )， 
neuralnet( ) 函数 的 第 一 个 参数 是 模型 的 公式 ， 如 y~xl + x2 + x3 + X4，data = df。 在 过 去 ， 
可 以 使 用 y~., 代表 将 数据 中 的 所 有 其 他 变量 指定 为 输入 。 但 是 , 神经 网 络 并 不 适用 这 种 情况 。 
解决 此 限制 的 方法 是 使 用 as.formula( ) 函数 。 在 首次 创建 变量 名 称 的 对 象 之 后 ， 将 使 用 它 作 
为 输入 。 


n <- names(shuttleTrain) 
form <- as.formula (paste ("use~", pastein[!n %inẹ T"use"], collapse = 


iaa 

form 

## use ~ stability.stab + stability.xstab + error.LX + error.MM + 

并 并 error.SS8 + error.XL + sign.nn + sign.pp + wind.head + wind.tail 
" 

d magn.Light + magn.Medium + magn.Out + magn.Strong + vis.no + 

Lu vis.yes 


这 里 生成 好 了 模型 的 公式 ， 接 下 来 了 解 神 经 网 络 模型 的 参数 。 在 Neuralnet 包 中 ， 使 用 
neuralnet( ) 构建 神经 网 络 模型 。 除 了 公式 之 外 ， 还 需要 检 和 个 其 他 4 个 天 键 参数 。 

e hidden: 这 是 每 层 隐 藏 神 经 元 的 数量 ， 最 多 可 达 3 层 。 黑 认 值 为 1。 

@ act.fct: 这 是 激活 函数 ,默认 logistic 和 tanh 可 用 。 

© errfct: 这 是 默认 使 用 sse 计算 错误 的 函数 ; 当 我 们 处 理 二 元 结果 时 ， 我 们 将 使 用 ce 
HITEL. 

@ linear.output: 一 个 逻辑 值 ， 如 果 act.fct 不 用 于 输出 神经 元 ， 则 将 线性 输出 设置 为 
TRUE, FIJ EX FALSE., 

其 他 参数 还 包括 : 

e lifesign: 一 个 字符 串 ， 指 定 在 计算 神经 网 络 期 间 函 数 的 输出 量 。 可 以 为 none、 
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minimal x, full. 
lifesign.step: 一 个 整数 ， 指 定 在 完整 生命 周期 模式 下 输出 最 小 国 值 的 步 长 。 
threshold: 一 个 数值 ， 指 定 误差 函数 的 偏 手 数 的 阀 值 作为 停止 标准 。 
stepmax: 指定 训练 神经 网 络 的 最 大 步骤 。 达 到 这 个 最 大 值 ， 神 经 网 络 的 训练 过 程 
会 停止 。 

@ algorithm: 包含 算法 类 型 的 字符 串 ， 用 于 计算 神经 网 络 参数 。 默 认 情 况 下 ， 和 神经 
络 模型 使 用 的 是 反 向 传播 算法 。 

这 里 将 err.fct 设 定 为 ce. 


fit <- neuralnet(form, 
data = shuttleTrain, 
err.fct - "ce", 
linear.output = FALSE 
) 


fit$result.matrix 


## PEN 

## error 0.02627366 
## reached.threshold 0.00948419 
## steps 196.00000000 
## Intercept.to.llayhidl 0.90580015 
## stability.stab.to.llayhidl 2.64367953 
## stability.xstab.to.llayhidl zx 
## error.LX.to.llayhidl —3.60891972 
## error.MM.to.llayhidl 1 .37684158 
$4 error.SS.to.llayhidl snpra ul 
## error.XL.to.llayhidl -3.21337321 
$4 sign.nn.to.llayhidl —-0.46911290 
## sign.pp.to.1layhidl 2.94218879 
## wind.head.to.llayhidl -0.89623719 
$$ wind.tail.to.llayhidl -]1.257845D3 
$4 magn.Light.to.llayhidl 1.14394538 
## magn.Medium.to.llayhidl 1.11579149 
$4 magn.Out.to.llayhidl -6.72831096 
## magn.Strong.to.llayhidl 0.50054785 
## vis.no.to.llayhidl 18.52331228 
## vis.yes.to.llayhid1 -6.08187903 
## Intercept.to.use -9.30815245 
## llayhidl.to.use 19.11977348 
reram rien 
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节点 只 有 一 个 。 接 下 来 就 可 以 使 用 构建 好 的 模型 进行 预测 ， 然 后 进一步 评价 模型 。 


13.2.2 ”评估 模型 效果 


下 面 使 用 新 的 数据 对 所 构建 的 模型 进行 预测 ， 然 后 对 预测 结业 进行 可 视 化 ， 如 图 13.2 
所 示 。 


shuttleTrainSProb <- fit5net.result[[1]] 
plot(density(shuttleTrainS$SProb),main-"Train Predict") 


y 训练 预测 
N 
co 
T e 
Y 
e 
o 
e | | | X 
-0.5 0.0 0.5 1.0 1.5 


N-180 "i55 0.1589 
图 13.2 ”神经 网 络 预测 结果 分 布 

在 图 13.2 中 ， 训 练 预 测 是 这 幅 图 的 名 称 ， 表 示 这 幅 图 展示 了 模型 的 预测 结果 。fit$net. 
result[[1]] 是 训练 数据 集 的 预测 结果 ， 图 13.2 显示 的 是 预测 结果 的 密度 直方 图 ， 这 个 密度 直 
方 图 是 双 峰 的 ， 其 分 界线 在 0.5 左右 ， 说 明 模 型 有 比较 好 的 区 分 能 力 ， 预 测 概率 大 于 0.5 的 
样本 可 以 判定 为 1， 预测 概率 小 于 0.5 的 样本 判定 为 0。 

接 下 来 绘制 ROC 曲线 ， 碍 看 模型 的 AUC 值 ， 这 里 使 用 了 scorecard 包 中 的 perf. eva( ) 
函数 来 绘制 ROC 曲线， 同时 还 绘制 出 了 模型 的 KS 曲线 。perf eva( ) 函数 的 第 一 个 参数 是 
模型 的 预测 结果 ， 第 二 个 参数 是 数据 集 的 真实 结果 。 神 经 网 络 的 预测 结果 如 图 13.3 所 示 。 


require (scorecard) 
## Loading required package: scorecard 
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perf eva(pred = fit$net.result[[1]],label = shuttleTrainS$Suse) 
i$ [INFO] The threshold of confusion matrix is 0.0017. 


MN 
(S 1.0000 
60. (0.45,1.00) 


N 


FAAPEA C96) 


. .* dat, AUC-1.0000 
p-0.00, (0.00,1.00) 


02 04 06 08 10 
数据 集 的 比例 〈% ) 
图 13.3 ”神经 网 络 的 预测 结果 


## $binomial metric 
## $binomial metric$dat 


LE MSE RMSE LogLoss R2 KS AUC Gini 
über Idea SEE RET RODA erc DTP ECT su E eee l Il 
T4 
T4 


## $confusion matrix 
## Sconfusion matrixS$dat 


ibn label pred 0 pred 1 error 
## 1: 0 80 1 0.01234568 

FE 2: 1 NA 99 NA 

## 3: total NA 100 NA 

## 

LE 

$4 Spic 

$4 TableGrob (1x 2) "arrange": 2 grobs 

d Z cells name grob 


## 1 1 (1-1,1-1) arrange gtable[layout] 
$4 2 2 (1-1,2-2) arrange gtable[layout] 


由 图 13.3 可 以 看 到 ， 模 型 几乎 完美 ，MSE 约 为 0，RMSE 2373 0. LogLoss 273 0, R2 
为 0.9999997，KS 为 1，AUC 为 1。 接 下 来 使 用 测试 数据 集 进 行 预测 。 使 用 compute( ) ER 
数 预测 新 的 数据 。 计 算 完 成 后 ， 使 用 $ netresult 创建 预测 列表 。 模 型 的 预测 结果 如 图 13.4 
所 示 。 
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res2 <- compute(fit, shuttleTest) 
predTest «- res25net.result 


perf eva(pred = predTest,label = shuttleTestsuse) 
## [INFO] The threshold of confusion matrix is 0.0043. 


YAK-S 
1.0 
^ 08 
ES 
& 0.6 
5H 
im 
TL 04- 
i 
0.2 : 
a  »«' dat, AUC-0.9993 
p=1.00. (0.00,0.98) 
0.0 4 | 04 >x 
00 02 04 06 08 10 00 02 04 06 08 10 
数据 集 的 比例 Cou) 1- 特异 度 
图 13.4 ”模型 的 预测 结果 
## Sbinomial metric 
## $binomial metric$dat 
T4 MSE RMSE LogLoss R2 KS AUC 


Gini 

## 1: 0.01309433 0.1144305 0.07932439 0.9451936 0.9782609 0.9992754 
A 

"4 

## 

## $confusion matrix 

## Sconfusion matrixS$dat 


ubi label pred 0 pred 1 error 

## 1: 0 28 2 0.066066667 

## 2: T NA 46 NA 

## 3: total NA 48 NA 

UE 

UE 

## Spic 

## TableGrob (1 x 2) "arrange": 2 grobs 
## Z cells name grob 


$$ 1 1 (1-1,1-1) arrange gtable[layout] 
D IQQ T aangegEalel ae 
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由 图 13.4 可 以 看 到 ， 测 试 数据 的 效果 也 非常 好 ， 但 是 其 中 还 有 两 个 误 报 。 可 以 尝试 改 
进 这 一 结果 并 在 测试 结果 中 实现 100% 的 准确 度 。 

为 此 ， 添 加 一 个 隐藏 层 并 且 在 隐藏 层 中 添加 更 多 的 神经 元 ， 然 后 构建 模型 ， 其 中 
hidden = c(3,2) 表示 有 两 个 隐藏 屋 ， 其 中 第 一 层 为 3 个 节 扣 ， 第 二 层 为 2 个 节点 。 训 练 集 的 
评价 如 图 13.5 所 示 ， 测 弃 集 的 评价 如 图 13.6 所 示 。 


fit2 = neuralnet(form, 
data=shuttleTrain, 
hidden=c (3,2), 
err.fct="ce", 
linear.output-FALSE 
) 

plot (fitz) 

res <- compute (fit2, shuttleTrain[,-18]) 


perf eva(pred = res$net.result, label = shuttleTrain$use) 
## [INFO] The threshold of confusion matrix is 0.0001. 
## $Sbinomial metric 

## Sbinomial metric$dat 


## MSE RMSE LogLoss R2 KS AUC Gini 
$4 1: 1.095568e-08 0.0001046694 0.0001041501 1 1 1l 1 
T4 
## 


## $confusion matrix 
## confusion matrix$dat 


T label pred 0 pred 1 error 

$4 1: 0 80 1 0.01234568 

## 2: l NA 99 NA 

## 3: total NA 100 NA 

## 

## 

## Spic 

## TableGrob (1 x 2) "arrange": 2 grobs 
## Z cells name grob 


## 1 1 (1-1,1-1) arrange gtable[layout] 
## 2 2 (1-1,2-2) arrange gtable[layout] 
res2 <- compute (fit2, shuttleTest) 
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图 13.5 ”预测 结果 (1) 


perf eva (pred = res2snet.result,1label = shuttleTest$use) 

## [INFO] The threshold of confusion matrix is 0.0001. 

## $Sbinomial metric 

$$ »binomial metricSdat 

LE MSE RMSE LogLoss R2 KS 
Gini 


AUC 


## 1: 302501315327 305 0013169954 0.1212608 US Hg 383 0.9666667 C099 3D 


0.9971014 


## Sconfusion matrix 
## Sconfusion matrix$dat 


LE Telsa ngmasi DD jaaa di error 

## 1: 0 28 2 0.06666667 

## 2: il NA 46 NA 

## 3: total NA 48 NA 
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## 

## Spic 

## TableGrob (1 x 2) "arrange": 2 grobs 
Hz cells name grob 
$411 -l,l1-1) arrange gtable[layout] 


(1 
## 2 2 (1-1,2-2) arrange gtable[layout] 
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yAK-S 


dat/KS30.9667 ^ 
p=0 JÒ. {0 38.0.97) - | 


œ 
Co 


C 


好 坏 客户 的 比例 (%) 
e 
I 


-- 
hy 


, dat, AUC=0.9986 
p=0.00, {0.03.1.00) 


0.0 | | | E 
Ü.U 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 


数据 集 的 比例 〈%) l- 特异 度 
图 13.6 预测 结果 (2) 
根据 图 13.5、 图 13.6 及 预测 结构 的 泥 清 窍 阵 可 以 看 到 ， 依 然 会 有 误 判 的 情况 。 在 这 种 
情况 下 ， 增 加 复杂 性 并 没有 改善 测试 集 的 性 能 ， 因此， 这 有 可 能 是 数据 质量 的 问题 ， 也 
就 是 说 ， 数 据 中 存在 矛盾 的 情况 。 但 总 的 来 说 ， 模 型 的 预测 效果 还 是 很 不 错 的 。 


13.3 总 ££ 


神经 网 络 模型 从 最 初 到 现在 已 经 发 展 很 多 年 了 ， 目 前 在 很 多 领域 都 有 非常 好 的 应 用 ， 
神经 网 络 可 以 发 现 数据 间 复 杂 的 非 线 性 关系 ， 有 很 好 的 预测 能 力 。 但 是 神经 网 络 模型 需要 
估计 的 参数 非常 多 , 因此 复杂 的 神经 网 络 训练 的 速度 会 比较 慢 , D) P. 神经 网 络 是 一 个 黑箱 ， 
训练 出 来 的 神经 网 络 很 难 理解 其 内 部 结构 ， 模 型 不 具备 可 解释 性 。 对 于 一 些 对 模型 的 可 解 
释 性 有 要 求 的 问题 ， 神 经 网 络 束 不 是 很 合 运 了。 但是， 图 像 识别 、 语 首 识别 这 些 问题 ， 不 
需要 理解 模型 ， 主 要 退 求 遇 的 准确 率 ， 这 个 时 候 神 经 网 络 就 很 有 优势 。 本 章 介 绍 了 神经 网 
络 模 型 的 基本 概念 ， 并 介绍 了 如 何在 R 语言 中 构建 基础 的 神经 网 络 模型 ， 包 括 neuralnet 包 、 
种 经 网 络 的 构建 方法 、 神 经 网 络 的 可 视 化 ， 以 及 使 用 神经 网 络 进行 预测 。 


第 14 章 文本 挖掘 


如 果 数 据 分 析 任务 涉及 对 文本 的 处 理 ， 就 会 用 到 本 文 挖掘 的 相关 方法 。 
文本 挖掘 的 关键 点 是 需要 将 文本 数据 转化 为 结构 化 数据 ， 数 据 结构 化 之 后 才 
能 进行 进一步 的 分 析 处 理 。 在 现实 生活 中 ， 大 量 的 数据 是 以 文本 的 形式 进行 
存储 的 ， 因 此 文本 数据 有 非常 大 的 数据 分 析 价 值 ， 文 本 控 据 也 是 数据 分 析 中 
比较 常见 的 任务 。 


14.1 f 本 


文本 挖掘 是 指 从 文本 数据 中 挖掘 有 价值 的 信息 ， 并 进一步 构建 模型 解决 
问题 的 过 程 。 文 本 挖掘 最 早出 现在 20 世纪 80 年 代 ， 当 时 只 能 采用 人 工 的 方 
式 分 析 文 本 信息 ， 但 是 随 着 自然 语言 与 机 器 学 习 技术 的 发 展 ， 文 本 挖 抉 已 经 
得 到 广泛 应 用 ， 应 用 领域 包括 商业 智能 、 信 息 检 索 、 安 全 领域 等 ， 比 较 多 的 
应 用 包括 : 与 情 分 析 、 情感 分 析 等 。 由 于 大 多 数据 是 以 文本 的 形式 进行 储存 的 ， 
所 以 文本 挖掘 具有 非常 大 的 商业 价值 。 

一 般 而 言 ， 文 本 挖掘 的 过 程 主要 有 3 个 步骤 ， 即 文本 数据 的 预 处 理 、 数 
据 结构 化 、 文 本 数据 的 分 析 。 

(1) 文本 数据 的 预 处 理 : 这 是 文本 挖掘 的 第 一 步 ， 需 要 对 所 能 使 用 的 所 
有 文本 数据 进行 搜集 ， 并 进一步 对 文档 进行 过 滤 ， 对 文档 的 类 型 进行 分 类 。 
由 于 文本 信息 的 时 效 性 、 隐 私 性 ， 或 者 其 他 原因 ， 有 些 文 本 数据 本 上身 没有 使 
用 价值 ， 因 此 ， 在 这 一 步 ， 这 一 部 分 数据 将 被 过 滤 挥 。 

(2) 数据 结构 化 :文本 数据 大 多 数 是 字符 串 组 成 的 非 结 构 化 数据 ， 这 种 
数据 类 型 并 不 能 直接 用 于 数据 分 析 ， 需 要 转变 为 结构 化 数据 (结构 化 数据 是 
由 行 和 列 组 成 的 数据 ， 行 代表 样本 ， 列 代表 特征 〉， 一 般 而 言 ， 文 本 数据 
会 被 转换 为 词 频 矩阵 或 者 thidf HERE. 

(3) 文本 数据 的 分 析 : 数据 结构 化 之 后 就 可 以 根据 分 析 目 的 对 数据 进行 
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DAT. ERK, 
本 草 将 介绍 文本 挖掘 的 基本 概念 、R 语言 中 的 文本 挖掘 包 text2vec， 以 及 使 用 及 语言 


14.2 text2vec BEAMBEHGS BIB 


text2vec 包 是 由 Dmitriy Selivanov 于 2016 年 10 月 所 写 的 R 包 。 此 包 的 主要 作用 是 为 
文本 分 析 和 自然 语言 处 理 提 供 一 个 简单 、 高 效 的 API 框架 。 
由 于 其 由 C++ 语言 所 写 ， 同 时 许多 部 分 〈 如 Glove) 都 充分 运用 ReppParallel 等 包 进 
行 并 行 化 操作 , 处 理 速 度 得 到 加 速 。 采 样 流 处 理 右 可 以 不 必 把 全 部 数据 载 入 内 存 才 进行 分 析 ， 
有 效 利用 了 和 内存， 可 以 说 该 包 苑 分 考虑 了 NLP 处 理 数 据 量 庞大 的 现实 。 
text2vec 包 是 一 个 文本 分 析 的 生态 系统 ， 可 以 进行 词 同 量化 操作 (Vectorization)、 
Word2Vec 的 “升级 版 ”GloVe 词 艇 入 表达 、 主 题 模 型 分 析 及 相似 性 上 度量， 功能 非常 强大 ， 
且 实 用 性 较 强 。 
本 文 使 用 及 语言 进行 文本 挖掘 的 基本 流程 如 下 。 
(1) 构建 一 个 文档 一 词 频 矩阵 (Document-Term Matrix, DTM) 或 者 词 频 共 现 矩阵 
(Term-Co occurrence Matrix, TCM) ， 或 者 TFIDF. 
(2) Æ DTM 基础 上 拟 合 模型 ， 包 括 文 本 〈 情 感 ) 分 类 、 主 题 模 型 、 相 似 性 度量 等 ， 
并 进行 模型 的 调试 和 验证 。 
(3) 最 终 在 新 的 数据 上 运用 拟 合 好 的 模型 。 
最 重要 的 一 步 是 将 文本 数字 化 。 关 于 如 何 实现 文本 数字 化 ， 前 面 提 到 了 几 种 方法 ， 接 
下 来 会 具体 介绍 。 


14.3 DTM 5 TFIDF 的 原理 和 实现 
14.3.1 DTM 和 TFIDF 的 原理 
DTM 可 对 文本 数据 进行 结构 化 。 假 设 有 两 个 文档 ， 分 别 为 D1、D2， 这 两 个 文档 的 
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DTM 分 别 如 图 14.1 和 图 14.2 所 示 。 
D1 = ' 我 喜欢 苹果 ? 
D2 = ' X^ SXXGER '. 


— Lo e |] e|] 


图 14.1 DTM 的 形式 (1) 


14.2 DTM 的 形式 (2) 


DTM 是 每 个 文档 中 每 个 单词 〈 或 是 词汇 表 ) 出 现 的 次 数 。 这 是 一 种 非常 直观 地 将 本 
文句 子 转化 为 数字 的 方法 。 但 是 ， 如 采 计 算 每 一 个 单词 的 频次 ， 那 么 最 后 出 现 的 是 阵 会 是 
一 个 非常 大 的 稀 下 和 矩阵 。 所 以 就 有 一 个 问题 一 一 是 不 是 需要 计算 每 一 个 单词 的 频次 呢 ?” 有 
些 单词 出 现 次 数 太 少 了 ， 统 计 出 来 没有 意义 ;有些 单 词 则 出 现 很 频繁 ,但 是 没有 意义 ， 如 
“的 ”“ 是 ”。 于 是 就 有 了 TFIDF. 

TFIDF 的 原理 如 下 : 评估 一 个 字 词 对 于 一 个 文件 集 或 一 个 语料库 中 的 重要 程度 。 字 词 
的 重要 性 随 着 它 在 文件 中 出 现 的 次 数 成 正比 增加 ， 但 同时 会 随 着 它 在 语料库 中 出 现 的 频率 
成 反比 下 降 。 

简单 来 说 ， 如 果 一 个 词 对 一 个 文档 很 有 代表 作用 ， 那 么 这 个 词 在 这 个 文档 中 肯定 会 出 
现 很 多 次 ， 但 是 这 个 词 不 会 在 其 他 文档 也 出 现 这 么 多 次 。 

在 一 份 给 定 的 文件 中 ， 某 一 个 给 定 的 词语 在 该 文件 中 出 现 的 次 数 就 是 词 频 (Term 
Frequency, TF) 。 词 频 通 常会 被 正规 化 ， 以 防止 它 偏 同 长 的 文件 ， 其 计算 公式 如 下 : 


n j 


fu 2n. 
AU, n, ; 是 该 词 在 文件 d FH BIER ILUACR, Dn, 是 所 有 了 字 词 在 文件 d FH BS HR IIRAL RI e 


逆 同 文件 频率 (Inverse Document Frequency, IDF) Jé— ^ iis m SEUEHBJBEBE. TD 
算 公式 如 下 : 
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df lor D 
"n EFA 


RP, |D| 表示 语料库 中 的 文件 总 数 ， 必 j :4 eq 表示 含 词语 4 的 文件 数目 ， 如 果 该 词语 不 
在 语料库 中 ， 则 此 项 为 零 ， 因 此 一 般 情况 下 使 用 时 会 加 1。 
对 于 TFIDF， 则 有 


If, ,df, = tf, x idf, 
某 一 特定 文件 内 的 高 词语 频率 及 该 词语 在 整个 文件 集合 中 的 低 文 件 频 率 ， 可 以 产生 高 
权重 的 TFIDF。 因 此 ，TFIDF 倾 回 于 过 滤 擅 和 常见 的 词语 ， 保 留 重要 的 词语 。 这 束 是 DTM 
和 TFIDF 的 思想 。 


14.3.2 ”DTM 的 实现 


在 RR 语言 中 通过 text2vec 包 实 现 DTM 的 步骤 如 下 。 

(1) RHENEN A. TX BI arci itoken( ) 函数 构造 的 ， 这 个 函数 有 和 大 
TRESI: 第 一 个 参数 是 iterable， 用 于 指定 所 使 用 的 文本 ， 文 本 的 格式 是 癌 量 ， 问 量 中 
每 一 个 元 素 代表 一 组 文本 数据 ， 第 二 个 参数 是 preprocessor， 用 于 设 定数 据 预 处 理 的 方式 ; 
第 三 个 参数 是 tokenizer， 用 于 指定 拆 分 字符 串 的 方式 (word tokenizer、char tokenizer 和 
space tokenizer) . 

(2) 设置 分 词 的 消除 售 用 词 。 有 些 词 没有 具体 的 含义 ， 如 语气 词 。 

(3) 进行 分 词 。 进 行 分 词 所 使 用 的 函数 是 create_vocabulary( )， 其 第 一 个 参数 是 第 一 
步 创 建 好 的 分 词 迭 代 器 ， 第 二 个 参数 是 stopwords， 即 需要 消除 的 停 用 词 。 

(4) 对 分 词 结果 进行 修 竟 。 对 分 词 结果 进行 修 竟 所 使 用 的 函数 是 prune vocabulary( )， 
其 第 一 个 参数 是 第 三 步 所 进行 的 分 词 ， 男 外 一 些 参 数 是 用 于 指定 具体 的 修 辟 规则 ， 包 括 
term count min， 表 示 词 语 在 所 有 文件 中 出 现 的 最 少 次 数 ，term count max 表示 词语 在 所 
有 文件 中 出 现 的 最 多 次 数 ，doc proportion min 表示 词语 在 所 有 文档 中 应 包含 的 最 小 比例 ; 
doc proportion max 表示 词语 在 所 有 文档 中 应 包含 的 最 大 比例 。 

(5) 构建 语料库 。 使 用 vocab_vectorizer( ) 图 数 ， 传 入 的 参数 是 第 三 部 的 分 词 结果 或 
者 第 四 步 修剪 后 的 分 词 结 果 。 

(6) 构建 DTM 矩阵 。 使 用 create dtm( ) 函数 ， 传 入 两 个 参数 ， 包 括 第 一 步 的 分 词 迭 
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ARREA SS TLZ TAL E E PI URL E o 
这 里 使 用 的 数据 集 是 text2vec H m A 822 RS Se—— movie review。 首 先 准 备 数据 ， 并 
将 数据 划分 为 训练 集 和 预测 集 ， 方 便 后 续 的 分 析 。 


library(text2vec) 
# 开始 构建 
prep fun = tolower # 转换 大 小 写 
# 代 表 词 语 划分 到 什么 程度 
tok fun = word tokenizer 35 用 于 拆 分 字符 串 的 工具 
HEY. BARBAROS 
it train = itoken(trainS$review, # 这 个 是 语 料 
preprocessor = prep fun, 
tokenizer Eok Em 
ids = trains$id, Rog ATuxExBid 
progressbar = FALSE) 
# 然 后 设 定 对 应 的 停 用 词 
# 步 骤 2 . 分 词 # 消 除 停 用 词 
SLOD words -= pomum mph mut myself Tyan mu E Yours", 
"ourselves", "you", "your", ”YOUTS | 
# 停 用 词 指 定好 之 后 ， 可 以 开始 构建 分 词 结果 
# 分 词 函 数 ，create vocabulary ， 传 入 一 个 分 词 迭 代 器 和 停 用 词 
vocab ered le vacssvedesbHb-ueteipanm eraLn Eom ards Sop NOTIE) 
head (vocab) 
## Number of docs: 4000 
## 11 stopwords: i, me, my, myself, we, our ... 


## ngram min = 1; ngram max = 1 

## Vocabulary: 

T term term count doc count 
$41 injections 1 jl 

## 2 everone 1 1 

## 3: argie 1 1 

## 4 naturists 1 1 

## 5: zag 1 1 

$4 6: koenekamp's il 1 


分 词 结果 存在 很 多 的 低频 词 和 很 多 超 高 频率 的 词语 。 进 一 步 对 分 词 结果 进行 修剪 ， 修 
前 的 条 件 如 下 : 外 词 频 不 能 低 于 10 个 ;加 词语 在 所 有 文档 中 出 现 的 比例 不 能 高 于 5096, BI 
最 多 有 49% 的 文档 包含 该 词 ， 加) 词语 在 所 有 文档 中 出 现 的 比例 不 能 低 于 0.196. 


# 对 低频 词 的 修剪 
pruned vocab = prune vocabulary (vocab, 
term count min = 10, # 词 频 ， 低 于 10 个 均 删 挥 


doc proportion max - 0.5, 
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doc reete qeye ue atre rev Man 0 TO TEN 
HEady pr ONEC TVEC) 
## Number of docs: 4000 
## 11 stopwords: i, me, my, myself, we, our 


## ngram min = 1; ngram max = 1 

## Vocabulary: 

HE term term count doc count 
## 1: accompanying 10 10 

$4 2: react 10 10 

## 3: pressed 10 10 

## 4: walsh 10 8 

## 5 unsure 10 10 

$4 6 trace 10 ipo 


这 一 步 完成 之 后 则 可 以 生成 语料库 ， 以 及 构建 DTM。 使 用 create dtm( ) 构建 DTM: 


FP UR3 .生成 语 料 文 件 


vectorizer = vocab vectorizer (pruned vocab) 
head (vectorizer) 
# t 


## 1 function (iterator, grow dtm, skip grams window context, window 
size, 


$4 2 weights) 

## 3 { 

## 4 wo etre vs 
create (vocabularysterm, 

## 5 attr (vocabulary, "ngram")[[1]], attr (vocabulary, "ngram") 
EZ 

## 6 attr (vocabulary, "stopwords"), attr (vocabulary, "sep 
ngrarn")) 

# 步 骤 4 .构建 DTM， 传 入 分 词 迭 代 器 和 语 料 文 件 
Em 


head (dtm train) 
## [1] 000000 


其 中 比较 重要 的 一 把 是 语料库 。 有 了 语料库 ， 束 有 J 了 新 数据 ， 便 可 以 耳 接 转换 成 DTM: 


prep fun = tolower # 转换 大 小 写 

# 代 表 词 语 划 分 到 什么 程度 

tok fun = word tokenizer + 用 于 拆 分 字符 捉 的 工具 

# 步 又 1 .设置 分 词 和 迭代 背 

it test = itoken(test$review, # 这 个 是 语 料 
preprocessor = prep fun, 
sa = = 
progressbar - FALSE) 
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局 NU 
headidtm test) 
4i [1] 00000 0 


这 样 对 调试 数据 也 构建 好 了 DTM. 


14.333 ”TFIDF 的 实现 


TFIDF 的 构建 是 建立 在 DTM 的 基础 之 上 的 ， 步 骤 如 下 。 
(1) 设置 TFIDF 编译 器 。 
(2) 转换 成 TFIDF 格式 。 
Tfidf$new( ) 用 于 新 创建 一 个 TFIDF 对 象 ， 然 后 使 用 fit transform( ) 将 DTM 转换 为 
TFIDF # EE. 


tfidf = Tfldf5new() 

tm train tfidf = ft transform(ldtm train, tidi) 
head (tm train tfidf) 

## [1] 000000 

# 构建 测试 集 的 TFIDF 

prep fun = tolower 4 转换 大 小 写 

# 代 表 词 语 划分 到 什么 程度 

tok fun = word tokenizer H4 用 于 拆 分 字符 串 的 工具 
FUR .设置 分 词 迭 代 器 


it test = itoken (test$review, # 这 个 是 语 料 
Ere TO CESO E E EEn 
tokenizer = tok _ fun, 
progressbar = FALSE) 
并 
dtm test tfidf = create dtmi(it test, vectorizer) €»25* EE 


transform(tfidf) 


至 此 就 构建 好 了 DTM 和 TFIDF 了 ， 接 下 来 可 以 进行 各 种 建 模 。 


14.4 情感 分 析 


进行 情感 建 模 ， 首 先 要 有 一 个 标签 ， 以 标注 茶 个 文本 所 代表 的 情感 ， 之 前 所 用 的 数据 
己 经 包含 了 标签 ， 其 中 sentiment 所 代表 的 就 是 该 文本 的 情感 标签 。 
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train[1,] 
## id sentiment 
RE 1: 11912 2 0 


## review 

$14 1: The story behind this movie is very interesting, and in general 
the plot is not so bad... but the details: writing, directing, 
continuity, pacing, action sequences, stunts, and use of CG all cheapen 
and spoil the film.<br /><br /»First off, action sequences. They are 
all quite unexciting. Most consist of someone standing up and getting 
shot, making no attempt to run, fight, dodge, or whatever, even though 
they have all the time in the world. The sequences just seem bland for 
something made in 2004.«br /><br /»The CG features very nicely rendered 
and animated effects, but they come off looking cheap because of how 
they are used.«br /»«br /»Pacing: everything happens too quickly. For 
example, \\"Elle\\" is trained to fight in a couple of hours, and from 
the start can do back-flips, etc. Why is she so acrobatic? None of this 
is explained in the movie. As Lilith, she wouldn't have needed to be 
able to do back flips - maybe she couldn't, since she had wings.<br 
/><br /»Also, we have sequences like a woman getting run over by a 
car, and getting up and just wandering off into a deserted room with 
a sink and mirror, and then stabbing herself in the throat, all for 
no apparent reason, and without any of the spectators really caring 
that she just got hit by a car (and then felt the secondary effects 
of another, exploding car)... \\"Are you okay?\\" asks the driver 
\\"yes, I'm fineWMM" she says, bloodied and disheveled.«br /»«br />I 
watched it all, though, because the introduction promised me that it 
would be interesting... but in the end, the poor execution made me 
wish for anything else: Blade, Vampire Hunter D, even that movie with 
vampires where Jackie Chan was comic relief, because they managed to 
suspend my disbelief, but this just made me want to shake the director 
awake, and give the writer a good talking to. 


可 以 看 到 ， 第 一 列 是 ID: 第 二 列 sentiment 用 于 表示 文本 的 情感 ， 有 两 个 值 ， 即 0 和 T. 
sentiment 就 是 情感 分 析 模 型 的 标签 ; 第 三 列 是 情感 分 析 的 文本 。 人 情感 模型 本 质 上 是 分 类 
模型 ， 因 此 我 们 在 构建 好 DTM 或 者 TFIDF 之 后 就 可 以 建立 情感 模型 ， 所 以 第 一 步 就 是 建 
ME DTM 和 TFIDF. 

1. 构建 DTM 

根据 上 文 构 建 DTM 的 方法 根据 原始 的 文本 构建 DIM， 上 文 的 代码 可 以 直接 使 用 ， 修 
改 对 应 的 数据 即 可 。 


# 数据 准备 
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daba l"mewvae reve) 

setDT (movie review) 

Sae es ae a review, id) 
set.seed(2016L) 

all ids = movie reviewsid 

train ids = sample(all ids, 4000) 
ER EEC 
En 
Pest me review d Eie] 


# 开始 构建 

prep fun = tolower + 转换 大 小 写 

# 代 表 词 语 划分 到 什么 程度 

tok fun = word tokenizer + 用 于 拆 分 字符 串 的 工具 

# 步 又 1 .设置 分 词 迭代 器 

it train = itoken(train$review, # 这 个 是 语 料 
Prepilocessor ECCE 
Emer C2 qtd SEL 
ee # 可 以 不 设置 id 
progressbar = FALSE) 


t273€2 .分 词 # 消 除 停 用 词 
stop words 至 c("i", "me", Dos M "nyself", "wo", "our", "ours", 
"ourselves", "vou". "your", "voure") 


HZ: create vocabulary , f£A—^7 4i RR RI is] 

vocab - Sreate Vocabulary iIe Crain, stopwords = stop words) 
head(vocab) 

## Number of docs: 4000 

## 11 stopwords: i, me, my, myself, we, our 


## ngram min = 1; ngram max = 1 

$4 Vocabulary: 

并 并 term term count doc count 
## 1 injections 1 1 

## 2 everone 1 1 

## 3: argie 1 1 

## 4 naturists 1 1 

## 5: zag il 1 

$4 6: koenekamp's 1 1 


# 对 低频 词 的 修剪 

pruned vocab = prune vocabulary (vocab, 
term count min = 10,  # 词 频 ， 低 于 10 个 均 删 挥 
lol eh) /oh seen 
doc proportion min = 0.001) 

head (pruned vocab) 

## Number of docs: 4000 

## 11 stopwords: i, me, my, myself, we, our 
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## ngram min = 1; ngram max = 1 

## Vocabulary: 

并 并 term term count doc count 
## 1: accompanying 10 10 

FH 2: react 10 10 

## 3: pressed 10 10 

## 4: walsh 10 8 

## 5: unsure 10 10 

$4 6 trace 10 10 


# 步 又 3 .生成 语 料 文 件 
vectorizer — vocab vectorizer(pruned vocab) 
head(vectorizer) 


dd 

## 1 function (iterator, grow dtm, skip grams window context, window 
size, 

## 2 weights) 

## 3 { 

## 4 vacak corpus Peri EBEN Corpu. 
create (vocabulary$term, 

## 5 attr (vocabulary, "ngram"”) [[1]]; attr (vocabulary, "ngram") 
[[2]]; 

## 6 attrivocabulary, "stopwords"), attr (vocabulary, "sep 
ngram")) 

# 步 最 4 .构建 DTM， 传 入 分 词 迭代 器 和 语 料 文件 

Shzmp er Eon ee ear Lar) 


head (dtm train) 

$$ [1] 000000 

prep fun = tolower # 转换 大 小 写 

# 代 表 词 语 划分 到 什么 程度 

tok fun = word tokenizer + 用 于 拆 分 字符 串 的 工具 
# 步 又 1 .设置 分 词 迭代 酷 


it test = itoken(test$review, # 这 个 是 语 料 
preprocessor = prep fun, 


tokenizer = tok fun, 
ids = test$id, 
progressbar = FALSE) 


Sa = = 
head (dtm test) 
i$ [1] 000000 


通过 上 面 这 个 步骤 已 经 构建 好 了 DTM， 这 个 时 候 可 以 开始 构建 模型 。 

2. 构建 情感 模型 

这 里 使 用 逻辑 回归 模型 作为 情感 模型 。 首 先 构 建 模型 ， 然 后 进行 验证 。 这 里 使 用 
cv.glmnet( ) 来 构建 逻辑 回归 模型 ， 这 个 函数 用 于 构建 广义 线性 模型 ， 其 最 主要 的 参数 是 x. 
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表示 模型 所 使 用 的 特征 。 参 数 y 表 示 模 型 的 标签 , family 用 于 指定 构建 什么 广义 线性 模型 GR 
置 为 binomial 表示 构建 逻辑 回归 模型 ) nfilds 用 于 指定 进行 多 少 折 交叉 验证 。 构 建 好 模型 
之 后 使 用 测试 集 进行 预测 ， 然 后 使 用 auc) 函数 计算 auc 值 ， 并 且 将 预测 概率 转换 为 分 类 结 
果 ， 最 后 使 用 confusionMatrix( ) 计算 出 预测 结果 的 混淆 矩阵 以 及 其 他 指标 。 


library (glmnet) 

## Loaded glmnet 2.0-16 

NFOLDS = 4 

ainis ne a ee | | 


mily-'binomial', 
# L1 penalty 


alpha = 1, 

# interested in the area under ROC 
curve 

type.measure = "auc", 


# 5-fold cross-validation 
nfolds = NFOLDS, 
# high value is less accurate, but 
has faster training 
thresh = le-3, 
# again lower number of iterations 
for faster training 
maxit = 1e3) 
preds = predict(glmnet classifler, dtm test, type = 'response'][,1] 
glmnet:::auc(test$sentiment, preds) 
$4 [1] 0.917145 
preds [preds<=0 .5]=0 
preds [preds>0.5]=1 
preds <- as.integer (preds) 
caret::confusionMatrix(table(preds,test$sentiment)) 
## Confusion Matrix and Statistics 


UE 

ud 

Td preds 0 1 

Td 0 409 64 

## 1 94 433 

td 

## Accuracy : 0.842 
## 95% CI : (0.8179, 0.8641) 
Td No Information Rate : 0.503 
## P-Value [Acc > NIR] : < 2e-16 
## 

td Kappa : 0.6841 


##  Mcnemar's Test P-Value : 0.02105 
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## 

## Sensitivity : 0.8131 
T Specificity : 0.8712 
T4 Pos Pred Value : 0.8647 
ub Neg Pred Value : 0.8216 
## Prevalence : 0.5030 
## Detection Rate : 0.4090 
## Detection Prevalence : 0.4730 
## Balanced Accuracy : 0.8422 
## 

## 'Positive' Class : 0 

4 


从 结果 可 以 看 出 ， 测 试 数 据 集 的 AUC 为 0.917145. Accuracy 为 0.842， 说 明 这 份 数据 
所 构建 的 情感 模型 的 预测 效果 非常 不 错 。 

3. 构建 TFIDF 

接 下 来 将 文本 数据 转换 为 TFIDF 和 矩阵， 并 进一步 分 析 结 果 。 


tfidf = TfIdf$new() 

tm train tfidf = fit transform(dtm train, tfidf) 

# 构建 测试 集 的 TFIDF 

prep fun = tolower # 转换 大 小 写 

# 代 表 词 语 划 分 到 什么 程度 

tok fun = word tokenizer  # 用 于 拆 分 字符 忠 的 工具 

# 步 又 1 LE BIA SAT SR 

it test = itoken (tests$review, # 这 个 是 语 料 
preprocessor = prep fun, 
tokenizer - tok fun, 
progressbar - FALSE) 

dtm test tfi1idi = create dtm(it test, vectorizer) $22 PERR 

transform (tfidf) 


4. 利用 TFIDF 构建 情感 模型 
这 里 构建 模型 的 过 程 与 之 前 使 用 DTM 的 结果 构建 模型 是 一 样 的 ， 不 一 样 的 是 这 里 所 
使 用 的 数据 集 是 文本 数据 转换 成 为 TFIDF 数据 的 结果 。 


library (glmnet) 
NFOLDS = 4 
ginet ie lassiera g EE 上 ICE E yy aa en En 
],family-'binomial', 
# L1 penalty 
alpha = 1, 
# interested in the area under ROC curve 
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type.measure = "auc", 

# 5-fold cross-validation 

nfolds = NFOLDS, 

f high value is less accurate, but has faster training 
thresh = 1e-3, 

# again lower number of iterations for faster training 
maxit - 1le3) 


siaaa oe ae en gebNL qeceysdm eer. qeWqefel ms. aa messem sdb] 
glmnet:::auc(testS$Ssentiment, preds) 
## [1] 0.9111048 


preds[preds«-20.5]-20 

preds[preds»0.5]-21 

preds «- as.integer(preds) 
caret::confusionMatrix(table(preds,test$sentiment)) 
Confusion Matrix and Statistics 


iE 
it 
T4 
## 
ubi 
ub 
## 
Td 
Fg 
idi 
ubi 
HE 
is 
id 
Ubi 
Pu 
ub 
## 
FH 
Td 
+H 
Fg 
ubi 
HE 
i 
# H 


preds 0 
0 
1 


1 
412 71 
g1 426 


Accuracy : 0.838 
IIe OCT U TT 029503) 


No Information Rate : 0.503 
P-Value [Acc > NIR] : <2e-16 


Kappa : 0.6761 


Mcnemar's Test P-Value : 0.1355 


Sensitivity : 0.8191 
Specificity : 0.8571 


POS 
Neg 


Detection 


Balanced Accuracy : 


'"Positive' Class 


0 

0 

0 
Detection Rate : 0.4120 

0 

0 


28530 
.8240 
: 5030 


Pred Value 
Pred Value 
Prevalence 


.4830 
.8381 


Prevalence 


e 


从 结果 中 可 以 看 出 ， 使 用 TFIDF 对 原始 数据 结构 化 处 理 之 后 ， 所 构建 的 情感 模型 测试 
数据 集 的 AUC 为 0.9111048，Accuracy 为 0.838， 模 型 效果 与 上 部 分 的 结果 相差 无 几 。 在 这 
里 再 做 一 个 简单 的 说 明 ， 对 于 文本 挖掘 一 个 很 关键 的 步骤 是 对 文本 数据 的 结构 化 ， 一 旦 文 
本 数据 结构 化 之 后 ， 即 可 构建 各 种 有 监督 或 者 非 监 督 的 模型 。 
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或 语料库 (Corpus) 中 潜藏 的 主题 信息 


14.5 LDA 主题 模型 及 其 实现 


LDA 是 一 种 非 监督 机 器 学 习 技 术 ， 可 以 用 来 识别 大 规模 文档 集 (Document Collection) 


每 一 遍 文 档 视 为 一 个 词 频 加 量 ， 从 而 将 文本 信息 转化 为 多 于 建 模 的 数字 信息 。 
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对 于 语料库 中 的 每 篇 文档 ，LDA 定义 了 如 下 生成 过 程 。 


e 对 文档 进行 聚 类 ， 即 将 文档 根据 不 同 的 主题 聚 类 起 来 。 对 每 一 篇 文档 ， 从 主题 分 


中 抽取 一 个 主题 。 
e 从 上 述 被 抽 到 的 主题 所 对 应 的 单词 分 布 中 抽取 一 个 单词 。 
e 重复 上 述 过程 直 至 遍历 文档 中 的 每 一 个 单词 。 
构建 LDA 模型 ， 首 先 需要 将 文本 转化 成 为 DTM 或 者 TFIDF 矩阵 。 


data("movie review") 

setDT(movie review) 

setkey(movie review, id) 
set.seed(2016L) 

all ids = movie reviews$id 

train ids - sample(all ids, 4000) 

test ids = setdiff(all ids, train ids) 
train = movie review[J(train ids)] 
EE 


# 开始 构建 
prep fun = tolower # 转换 大 小 写 
# 代 表 词 语 划分 到 什么 程度 


tok fun = word tokenizer # 用 于 拆 分 字符 串 的 工具 

ERI. KENTARA 

it train = itoken(train$review, # 这 个 是 语 料 
PPA S Aa a a 
kūkenizeri troe run; 
ids = tralnsid, # 可 以 不 设置 id 
progressbar = FALSE) 


E2732 .分 词 # 消 除 停 用 词 


stop words — a a "me", desee ENDO CU "we", ll bl a 


TOUrSe les eo vo Ee re T) 


# 分 词 函 数 :; create vocabulary ， 传 入 一 个 分 词 迭代 器 和 停 用 词 


昌 。 它 采用 词 袋 (Bag of Words) 的 方法 ， 这 种 方法 将 


yAn 


"OUr a 
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vocab = create vocabulary{it train, stopwords = stop words) 
PARAAN 
pruned vocab = prune vocabulary (vocab, 
term count min = 10, # 词 频 ， 低 于 10 个 均 删 挥 
doc proportion max = 0.5, 
doc Proportion mes 
HRS. EREA 


IE ee o ea n Ec EE E EE e aeaa Ee E yere d 


vectorizer 

## function (iterator, grow dtm, skip grams window context, window 
Size, 

## weights) 

$3 ( 

## vocab corpus ptr = cpp vocabulary corpus create (vocabulary$term, 
## attr (vocabulary, "ngram™) [[1]]; attr {vocabulary, "ngram™) 
[[211, 

T4 attr(vocabulary, "stopwords"), attr(vocabulary, "sep 
ngram")) 

## setattr(vocab corpus ptr, "ids", character (0)) 

## Seta CEr wSHDOSOGOEBIS PEI Cl 7 VOCaDLorpus 

并 并 Eee 本 
window context, 

## window size, weights) 

s } 


$4 «bytecode: 0x7f£d77dd59228» 
44 «environment: Ox7fd787a3cc98» 
# 步 又 4 .构建 DTM， 传 入 分 词 迭 代 器 和 语 料 文件 


dtm train = create dtmíit train, vectorizer) 


prep fun - tolower # 转换 大 小 写 

# 代 表 词 语 划分 到 什么 程度 

tok fun = word tokenizer 1354 用 于 拆 分 字符 串 的 工具 
FERL. RENARE 


it test = itoken (test$review, # 这 个 是 语 料 
EE Eu 
poen Eoin 


ids = tests$id, 
progressbar = FALSE) 


dtm test = create dtml(it test, vectorizer)] 


至 此 构建 好 了 DTM， 接 下 来 构建 主题 模型 。 首 先 创建 一 个 主题 模型 , LDA$Snew(n - 
topics = 10) 表示 创建 一 个 有 10 个 主题 的 主题 模型 。 创 建 好 主题 模型 之 后 ， 拟 合 模 型 ， 使 用 
的 是 创建 好 的 LDA 模型 的 一 个 对 象 ， 使 用 ft transform( ) 进行 拟 合 ， 其 第 一 个 参数 是 构建 
好 的 DTM 矩阵。 
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这 里 可 直接 使 用 之 前 的 DTM 数据 。 
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lda model = LDA$new(n topics = 10) 
sisse reae elne Ease ie nan em ae 
seo en 


Uu 
id 
i 
i 
ub 
HE 
i 
bs 
ub 


Tg 
Tg 


[,1] 
[5,5] 
11912 2 . 0.150537634 


0.043010753 
11507 10  0.144144144 
oes atur aat qid 
8194 9 0.071428571 
0.142857143 
11426 10  0.044943820 
0.101123596 
4043 3 0.047058824 
0.023529412 
11287 3 . 0.046948357 


0.093896714 
attr(,"likelihood") 


[,2] 


0.080645161 


a S ET a edd qb 


0.1428571435 


DO-1011235956 


0.094117647 


0.145539906 


iter loglikelihood 
1 10 -3748833 
2 20 ls 


[, 3] 

0.048387097 
0.072072072 
0.061224490 
0.067415730 
0.058823529 


0.187793427 


[,4] 


0.134408602 


DEDE 


0.010204082 


0.089887640 


0: 0705388235 


Munt poser 01g) 


20) 


EARP, FIT 1€ 8E— P OUI e A IRI SERBHBUNEAE, LX VOUS PUB BU OCA IG A 
成 了 10 个 大 关 别 ， 这 种 方法 类 似 于 机 天 学 习 中 的 聚 类 算法 。 


14.6 TEES AS 


自动 问答 的 关键 在 于 衡量 文本 间 的 相似 性 ，text2vec 提供 了 两 套 函 数 集 ， 用 于 测量 变量 
距离 / 相似 性 。 其 中 ， 最 常用 的 是 sim2( )。 实 现 自动 问答 系统 的 第 一 步 是 构建 DTM ERE, 


@ sim2 (x,y,method ) : 分 别 计算 xy 个 相似 性 。 
€ psim2 (x,x,method ) : 平行 地 来 数据 的 相似 性 ,，x 个 相似 性 。 


e dist2 (x,y,method ) : Sk sim2 相反 ， 分 别 计 算 xy 个 距离 。 


pdist2 ( x,y,method ) : 平行 地 求 数据 的 距离 ，x 个 距离 。 
(1) Jaccard 相似 度 : 


dl d2 jac sim = sim2 (dtm test, dtm train, method = "jaccard", norm = 
Bre 
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(2) 余弦 相似 度 : 


dl d2 cos sim = sim2(dtm train, dtm test, method = "cosine", norm = 
at d^ cna 


接 下 来 构建 一 个 目 动 问答 系统 ， 基 本 思路 如 下 : 

CD 准备 语料库 。 

(2) 构建 问题 与 答案 的 关系 。 

(3) 构建 DTM. 

(4) 计算 提问 与 目标 问题 的 相似 性 。 

(5) 获取 答案 。 

首先 构建 语料库 ， 构 建 的 语料库 是 与 数学 有 关 的 。 这 个 语料库 分 为 两 个 部 分 : 第 一 个 
部 分 是 关于 革 个 问题 的 天 键 词 组 ， 如 关键 词组 子 官 阵 ， 第 二 个 部 分 是 对 应 关键 词组 的 回答 。 

ET 

c (" 子 和 矩阵 是 在 矩阵 选取 部 分 行 、 列 所 组 成 的 新 矩阵 。 它 亦 可 用 &R (3;2) 

表示 ， 显 示 除 掉 第 3 行 和 第 2 列 的 余下 矩阵。 这 两 种 方法 比较 常用 ， 但 还 是 没有 标准 的 方法 表示 子 

矩阵。" "线性 方程 组 是 数学 方程 组 的 一 种 ， 它 符合 以 下 形式 : 其 中 的 及 等 是 已 知 的 常数 ， 

而 等 则 是 要 求 的 未 知 数 。 如 果 用 线性 代数 中 的 概念 来 表达 ， 则 线性 方程 组 可 以 写成 : 这 里 的 Ra 

是 mxn 和 矩阵 ，x 是 含有 n 个 元 素 的 列 向 量 ，b 是 含有 m 个 元 素 的 列 向 量 。", "在 数学 线性 映 

射 是 在 两 个 向 量 空间 之 间 的 一 种 保持 向 量 加 法 和 标量 乘法 的 特殊 映射 。 线 性 映射 从 抽象 代数 角度 

看 是 向 量 空间 的 同 态 ， 从 范畴 论 角 度 看 是 在 给 定 域 上 的 向 量 空间 所 构成 的 范畴 中 的 态 射 。"," 方 

块 矩阵 ， 或 简称 方 阵 ， 是 行 数 及 列 数 篆 相同 的 矩阵 。 由 和 窍 阵 组 成 的 集合 ， 连 同和 矩阵 加 法 和 矩阵 乘 

法 ， 构 成 环 。 此 环 不 是 交换 环 。M(n， R) ， 即 宝 方块 矩阵 环 ， 是 个 宝 有 单位 的 结合 代数 ", "单位 


阵 是 单位 矩阵 的 简称 ， 它 指 的 是 主 对 角 线 上 都 是 1， 其 余 元 素 皆 为 0 的 矩阵。 在 和 矩 阵 的 乘法 中 ,有 一 
种 矩阵 起 着 特殊 的 作用 ， 如 同 数 的 乘法 中 的 1， 我 们 称 这 种 和 矩阵 为 单位 条 阵 ， 简 称 单位 阵 " ) ) 


names (mathi) <= CI 


head (math, 3) 


## V1 
## 1 THEE 
## 2 线性 方程 组 

## 3 ”线性 变换 

td 

e 


1 CfjBERRMAERBERXEBUG. JAER ER. CZRSDRjA(3;2)35z5, mons ERISSS3TTATU 
Bos REPE. 这 两 种 方法 比较 常用 ， 但 还 是 没有 标准 的 方法 表示 子 和 矩阵 。 
## 2 线性 方程 组 是 数学 方程 组 的 一 种 ， 它 如 果 用 线性 代数 中 的 概念 来 表达 ， 则 线性 方程 组 可 以 
写成 : 这 里 的 A 是 m Xn 矩阵 ，x 是 含有 n 个 元 素 的 列 向 量 ，b 是 含有 m 个 元 素 的 列 向 量 。 
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## ”3 在 数学 中 ， 线 性 映 咽 是 在 两 个 向 量 空间 之 间 的 一 种 保持 向 量 加 法 和 标量 乘法 的 特殊 映射 。 线 
性 映射 从 抽象 代数 角度 看 是 同 量 空间 的 同 态 ， 从 范畴 论 角度 看 是 在 给 定 域 上 的 癌 量 空间 所 构成 的 
范畴 中 的 态 射 。 


这 里 构建 了 一 个 简单 的 语 料 数据 ， 然 后 构建 一 个 函数 ， 用 于 构建 目 动 问答 系统 ， 传 入 
的 参数 包括 两 个 ， 第 一 个 参数 是 所 提问 的 问题 ， 第 二 个 参数 是 对 应 的 语 料 。 先 构建 关键 词 
组 的 DTM 或 者 TFIDF 和 矩阵， 然后 构建 问题 的 DTM， 计 算 问 题 与 关键 词组 的 相似 性 ， 返 回 
最 相似 的 关键 词组 所 对 应 的 答案 。 


Automatic question answering-function (question,math) (| 
# 首 先 创 建 语 料 库 
library(text2vec) 
math sample = math 
it = itoken (as.character {math sample[,1]), 
tokenizer ~ word tokenizer) 
# Creates a vocabulary of unique terms 
v = create vocabulary (1t) 


#remove very common and uncommon words 

iix -ZJ86 MARAA L, FERMIER E LAL o 

pruned vocab = prune vocabulary ív, cerm count min = 1, 

doc proportion max = 0.5, doc proportion min = 0.001) 

FIER CURE XI) ERES EX, A FAE DTM/ TCM/ 语 料 库 。 

vectorizer = vocab vectorizer(pruned vocab) 

# 创建 语 料 数据 的 DTM 

It = itöken{as.:.character{math samplekyvl], preprocess runction = 
tolower, 

tokenizer Wo ZR 

SDocument-term matrix construction 
ER 


# 创建 问题 的 DTM 

it = itoken(question, preprocess function - tolower, 
tokenizer = word tokeni2er) 

#Document-term matrix construction 

dem ues tIon e create ACMI, VECEOTIZET)] 


# 找到 最 相近 的 问题 
n-which(as.matrix(sim2(dtm raw,dtm question))--max(sim2 (dtm raw,dtm 


question))) 


print (paste ("你 需要 的 回答 是 : ",math samples$V2[n])) 
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这 样 就 构建 好 了 自动 问答 系统 ， 然 后 就 可 以 通过 目 动 问答 系统 的 函数 来 获取 对 应 问题 
HERT: 

Automatic question answering (" 子 起 阵 是 什么 " ,math = math) 

## [1] “你 需要 的 回答 是 : ” 子 算 阵 是 在 息 阵 选取 部 分 行 、 列 所 组 成 的 新 息 阵 。 它 亦 可 用 

A (3;2) 表 示 ， 显 示 除 挥 第 3 行 和 第 2 列 的 余下 算 阵 。 这 两 种 方法 比较 党 用， 但 还 是 没有 标准 的 方法 

saara " 

在 这 里 可 以 了 解 到 ， 构 建 一 个 强大 的 目 然 语言 功能 系统 ， 算 法 是 一 方面 ， 男 外 一 方面 
是 语料库 。 充 足 的 文本 数据 对 构建 模型 是 至 关 重 要 的 。 


14.7 总 结 


本 章 介绍 了 文本 挖掘 的 基本 概念 。 文 本 挖掘 最 关键 的 步骤 是 要 将 原始 的 文本 数据 转变 
成 结构 化 的 数据 。 在 此 之 后 ， 可 以 构建 各 种 算法 。 本 章 介 绍 了 情感 分 析 模 型 ， 情 感 分 析 模 
型 本 质 上 是 分 类 模型 的 一 种 应 用 ; 然后 介绍 了 主题 模型 ， 关 于 主题 模型 的 一 个 合适 的 类 比 
就 是 机 器 学 习 中 的 聚 类 算法 ， 但 是 二 者 的 原理 有 非常 大 的 区 别 ; 最 后 构建 了 一 个 目 动 问答 
系统 ， 这 个 自动 问答 系统 可 以 根据 提问 自动 地 返回 一 个 答案 。 

通过 对 本 和 章 的 学 习 ， 可 以 快速 地 使 用 及 语言 进行 文本 挖掘。 关于 文本 挖掘 最 关键 的 是 
要 有 充足 的 、 忆 质 量 的 数据 ， 这 和 古 全 关 重 要 的 ， 当 然 ， 这 对 其 他 数据 分 析 任 务 同样 重要 。 
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社交 网 络 是 一 种 由 许多 市 点 构 建 而 成 的 社会 和 结构。 市 点 可 以 是 人 或 者 组 
织 ， 线 段 表 示 关 系 ， 社 交 网 络 则 是 节点 通过 线段 连接 起 来 的 一 个 网 络 。 在 互 
联网 兴起 之 前 ， 社 交 网 络 分 析 是 社会 学 的 一 个 重要 的 研究 分 支 。 随 着 互联 网 
的 兴起 ， 社 交 网 络 的 研究 开始 着 重 于 线 上 的 网 络 分 析 。 本 章 将 介绍 社交 网 络 
分 析 的 基本 概念 、 在 RR 语言 中 进行 社交 网 络 分 析 的 igraph 包 ， 以 及 一 个 社交 
网 络 分 析 的 例子 。 


15.1 社交 网 络 概述 


1. 社交 网 络 的 基本 概念 
社交 网 络 通 党 使 用 图 来 描述 ， 图 可 以 非常 直观 地 描述 事物 之 间 的 关系 。 
ERF, Ta Node) 表示 一 个 人 人， 或 者 一 个 事物 ; 边 Edge) 代表 人 或 者 
事物 之 间 的 关系 。 有 回 图 用 箭头 表示 事物 之 间 的 关系 ， 无 问 图 直接 使 用 线段 
来 摘 述 。 关 于 图 ， 有 几 个 重要 的 概念 ， 上 基体 如 下 。 
e 度 (Degree) : 这 个 概念 用 来 描述 连接 点 ( Vertices ) 的 活跃 性 ， 指 的 
是 与 点 相连 接 的 边 的 数目 。 在 有 向 图 中 ， 度 分 为 出 度 (Out Degree) 
和 入 度 (In Degree) 。 出 度 指 的 是 以 某 一 个 节点 为 起 点 指向 另 一 个 点 
的 边 的 数目 。 入 度 指 的 是 以 某 一 个 节点 为 终点 的 边 的 数目 。 有 向 图 某 
个 节点 的 度 是 出 度 和 入 度 的 和 。 
e iù (Edges): 边 分 为 有 向 边 和 无 向 边 。 
e 图 的 密度 (Density) : 其 计算 公式 是 整个 图 的 边 数 除 以 整个 图 可 能 的 
边 数 。 
2. 社交 网 络 的 基本 特性 
(1) 符合 小 世界 原理 。 小 世界 原理 是 指 地 理 位 置 比较 遥远 的 人 可 能 存在 
比较 近 的 社交 关系 。 比 较 闭 名 的 理论 是 六 度 分 隔 理论 ， 意 思 是 说 ， 任 意 两 个 


人 可 以 通过 其 他 5 个 人 关联 起 来 。 小 世界 原理 在 社交 网 络 得 到 了 论证 ，Facebook 任意 两 个 
用 户 的 平均 路 径 长 度 约 为 4.74，Twitter 为 4.67。 也 就 是 说 ， 社 交 网 络 中 的 任意 两 个 人 可 以 
通过 5 个 人 进行 连接 。 

(2) 具有 无 标 度 的 特性 。 社 交 网 络 中 存在 一 些 节 点 ， 这 些 节点 只 有 少量 的 边 ， 同样 存 
在 一 些 节 点 ， 这 些 节 点 包含 大 量 的 边 。 这 种 存在 节点 不 均衡 的 上 度 分 布 的 情况 ， 称 为 无 标 度 。 
4] AR RE TIE AI RAEI Mh e 

3. 社交 网 络 分 析 的 应 用 场景 

社交 网 络 分 析 是 一 种 无 监督 的 机 器 学 习 方 法 ， 有 一 些 类 似 于 机 器 学 习 中 的 聚 类 算法 ， 
用 于 识别 社交 轿子 。 所 谓 “ 物 以 类 聚 ， 人 以 群 分 ”， 一 旦 我 们 可 以 将 社交 网 络 划 分 为 不 同 
的 圈子 ， 就 可 以 有 很 多 的 应 用 。 

(1) 社交 推荐 。 例 如 ， 微 信和 QQ 是 关于 人 与 人 之 则 的 强 关 系 网 络 ， 对 微 信和 QQ 的 
社交 网 络 进行 分 析 ， 可 以 识别 出 不 同 的 网 络 圈 ， 一 个 应 用 场景 是 朋友 相互 推荐 。 微 博 、 豆 
淤 是 社交 网 络 中 关注 与 被 关注 的 弱 关 系 网 络 ， 社 交 网 络 分析 有 助 于 消息 和 知识 的 传播 、 还 
可 以 对 用 尸 进行 精准 化 营销 ， 个 性 化 推荐 商品 和 服务 。 因 为 同一 个 社交 网 络 中 的 人 群 是 相 
似 的 ， 因 此 可 以 在 同一 个 社交 群体 中 推荐 相同 的 产品 或 者 服务 。 

(2) 和 与 情 分 析 。 熏 情 分 析 在 互联 网 兴起 之 前 就 已 经 被 应 用 于 政府 、 商 业 中 ， 这 时 的 分 
析 主 要 还 是 从 线 下 的 一 些 新 闻 报 纸 进行 分 析 。 随 着 互联 网 的 兴起 ， 线 上 的 媒体 越 来 越 多 ， 
信息 的 真实 性 偏 低 ， 并 且 传 播 速度 非常 快 ， 难 以 控制 。 

(3) 疾病 传播 研究 。 疾 病 传播 网 络 属于 社交 网 络 的 模型 ， 因 此 对 疾病 传播 网 络 进 行 分 
析 可 以 识别 关键 节点 ， 并 且 切 断 网 络 中 的 关键 节点 以 阻止 传染 性 疾病 的 传播 。 

男 外 ， 社 交 网 络 分 析 还 可 以 帮助 金融 机 构 识 别 欺 诈 集团 ， 进 行 反 欺诈 风 控 等 。 


igraph 是 一 系列 网 络 分 析 工 具 , 它 强 调 效 率 \ 便携 性 和 吻 用 性 , 不 仅 文 持 C/C++ 直接 调用 ， 
同 而 且 提 供 了 R、Python、Ruby 等 语言 接口 ， 其 主要 功能 是 提供 无 辐 图 、 有 问 图 的 算法 ， 包 
仿生 成 图 、 最 短路 任 、 生 成 最 小 树 等 经 典 算法 ， 还 包含 了 中 介 中 心性 、 网 络 分 析 等 算法 。 
igraph 库 的 主要 目标 是 提供 一 组 数据 类 型 和 函数 ， 具 有 以 下 优点 。 
CD 高 效 实 现 图 算法 。 
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(2) 快速 处 理 大 图 ， 上 共有 数 百 万 个 项 点 和 边 。 

(3) 给 其 他 语言 提供 接口 ， 进 行 快速 原型 设计 。 

igraph 是 免费 开源 的 ， 其 官网 地 址 为 https: //igraph.org/R 语言 可 以 通过 igraph € 3 ii 
用 这 个 网 络 工具 。 


15.2.1 准备 工作 


首先 需要 安装 好 这 个 包 ， 这 里 使 用 install.packages("igraph") 进行 安装 ， 安 装 好 了 这 个 
包 之 后 进行 加 载 。 


install.packages ("igraph") 
library(igraph) 


下 面 构建 一 个 简单 的 网 络 。 构 造 一 个 网 络 一 般 会 使 用 两 个 函数 : 
graph( ) 和 graph.data.frame( ). 
首先 使 用 graph( ) 构建 网 络 ， 所 构建 的 有 癌 图 如 图 15.1 所 示 。 


Myfristnetwork «- graph (edges = 

c{"Alice",; "Sam", "Sam", "Sam", "Sam", "David", "David", "Alice", "Frank", "Davi 
d"), directed = TRUE) 

# 进行 绘图 

plot(myfristnewwork) 

myfristnewwork[] 

## 4 x 4 sparse Matrix of class "dgCMatrix" 


## Alice Sam David Frank 
## Alice P 1 : 
## Sam : 1 1 
44$ David il . : 
## Frank : $ Ji 
ETIS 
"1 

一 4 

e^ j 

^*e^— 


图 15.1 有 向 图 ( 1 ) 


a 
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directed 参数 指定 所 构建 的 图 是 否 是 一 个 有 问 图 。edges EA -cE T8] EP JZURR 
两 两 一 组 , 构成 一 个 连接 。 最 后 所 输出 的 是 网 络 图 形 对 应 的 矩阵 , 行 、 列 都 代表 节点 的 名 称 ， 
FERMA 1 来 表示 。 

然后 使 用 graph.data.frame( ) 这 个 函数 来 构建 图 ， 所 构建 的 有 问 图 如 图 15.2. 所 示 。 

myfristnewwork 


«- graph.data.frame(data.frame(c("Alice","Sam","Sam","David","Frank"),c 
"eam ee oan ee David Alicen Di I 


plot (myfristnewwork) 


图 152 有 向 图 (2) 


使 用 graph.data.frame( ) 函数 来 构建 网 络 需要 传递 一 个 数据 框 ， 这 个 数据 框 有 两 列 ， 这 
两 列 一 一 对 应 ， 构 成 网 络 ， 其 中 ， 默 认 directed = TRUE， 其 表明 所 构建 的 图 是 有 向 图 。 


15.2.2 图 的 指标 计算 


1. 计算 图 的 度 

通过 degree( ) KAU UERS ARWEN: 直接 输入 网 络 图 ， 可 以 得 看 整个 图 的 总 
度数 。 

使 用 degree( ) 函数 来 查看 一 个 网 络 的 度 : 

degree (myfristnewwork) 


## Alice Sam David Frank 
## 2 4 3 1 


TUB A — 8 ESTIREIC: 


degree(myfristnewwork,v = "Alice") 
## Alice 
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i 2 


如 果 想 知道 网 络 图 中 有 哪些 节点 ， 可 以 使 用 VO 函数 : 


V(myfristnewwork) 
## + 4/4 vertices, named, from b8a2fee: 
## [1] Alice Sam David Frank 


计算 出 度 与 入 度 ， 这 里 依然 使 用 的 是 degree( ) 函数 ， 其 中 mode 参数 用 于 指定 所 计算 
的 是 出 度 还 是 入 度 ， 


degree (myfristnewwork, mode = "in") 

## Alice Sam David Frank 

## 1 2 2 v 
degree(myfristnewwork,mode - "out") 
Tm Alice Sam David Frank 

## 1 2 ik !l 


2. 计算 图 的 项 点数 和 边 数 
计算 定点 所 使 用 的 函数 是 vcount( )， 计 算 边 数 所 使 用 的 函数 是 ecount( )， 代 码 如 下 。 


vcount (myfristnewwork) 
$4 [1] 4 
ecount (myfristnewwork) 


HF [1] 5 

3. 计算 整个 图 的 路 径 长 度 

diameter( ) 函数 用 于 计算 图 的 最 长 路 径 。 
例如 : 


diameter(myfristnewwork,directed = F,weights = NA) 
## [1] 2 


由 结果 可 以 看 到 ， 该 图 的 最 长 路 径 为 2。 
4. 计算 图 的 密度 
edge density ) 函数 用 于 计算 图 的 密度 。 例 如 : 


edge density (myfristnewwork) 
## [1] 0.4166667 


216. 


TENi 


图 密度 的 计算 公式 是 整个 图 的 边 数 除 以 整个 图 得 到 的 边 数 。 例 如 : 


ecount (myfristnewwork) 

wu E S 
ecount(myfristnewwork)/(vcount(myfristnewwork)*(vcount(myfristnewwo 
ied sd E 

$4 [1] 0.4166667 


这 里 通过 顶点 数量 与 边 的 数量 计算 了 整个 图 的 密度 。 


15.3 ”社交 网 络 的 党 见 结构 


下 面 介绍 几 种 特定 的 图 形 结构 。 
CD ZR: 没有 任何 连接 的 图 形 , 通过 make empty graph() 函数 创建 ， 如 图 15.3 所 示 。 


eg <- make empty graph (40) 
plot (eg, vertex.size-10, vertex.label=NA) 


(20 全 连接 图 所 有 节点 与 任意 的 其 他 节点 相连 接 ， 通 过 make full graph( ) 函数 创建 ， 
如 图 15.4 所 示 。 


fg <- make full graph(40) 
plot(fg, vertex.size-10, vertex.label-NA) 


O O 
O > 0 o 
© 9 © O 
| O 
O m O o 9 o 
O - O j 
© o O o 
O 
© o » © 
O © © o 
O o 0 © 
E153 2A 图 15.4 全 连接 图 


G) E: 只 有 一 个 扩 与 其 他 市 把 相 连接 ， 其 他 市 扩 全 部 不 相连 接 ， 通 过 make 


r NE 
| 
i E A 
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star( ) 函数 创建 ， 如 图 15.5 所 示 。 


st <- make star(40) 
plot (st, vertex.size-10, vertex.labelzNA) 


(40 WE: JUBRÉIZSTUCTOIBUEGTA. REUBTBUEGAGUT RAER., ERRET mI 
不 会 相连 接 ， 通 过 make tree() 函数 创建 ， 如 图 15.6 所 示 。 


tr <- make tree(40, children = 3, mode = "undirected") 
plot(tr, vertex.size-10, vertex.label-NA) 


ene 
| 6 
mw | 
29. 
2d D i" Fi 
o | 
A a 
Fa | ` " 
e». 20 
oo 9 
og? 
图 15.5 Ø 图 15.6 树 图 


(5) HE: 节点 通过 环 的 形状 连接 起 来 ， 通 过 make_ring( ) 函数 创建 ， 如 图 15.7 所 示 。 


rn <- make ring(40) 
plot (rn, vertex.size-10, vertex.label-NA) 


(6) Watts-Strogatz CEL—J3 EJ vx. 图 : Ber A NEZ P2 Js E OIF RAF 
KÆ) 的 随机 图 形 ， 由 大 量 邻 近 节 点 组 成 ， 这 些 邻 近 市 点 的 连接 是 确定 的 。 其 通过 sample | 
smallworld( ) 函数 创建 ， 如 图 15.8 所 示 。 


wmama ar 
Eee 


这 里 使 用 plot( ) 函数 进行 绘图 ，plot( ) 是 范 型 函数 ， 在 这 里 调用 plot) 函数 其 实 是 调用 
plot.graph， 绘 图 参数 如 表 15.1 所 示 。 
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© 9-9. 9 9 A 
15.7 XE 图 15.8 Watts-Strogatz 图 
表 15.1 绘图 参数 


参 数 名 
网 络 对 象 


节操 边框 颜色 


“T” "IE". “FÆ”, *csquare" . “JÆ” ~ "crectangle" ~ *vrectangle" . 


vertex.shape . 
“pie” ~ “raster” EX "sphere" Z — 


节点 大 小 《默认 为 15) 


vertex.size2 节点 的 第 二 个 大 小 例如， 对 于 和 矩形 ) 


vertexlabel | 用 于 标记 节点 的 字符 向 最 
标签 的 字体 系列 (如 Times、Helvetica) 
vertexlabelfont 。 ”| 字体 : 1 一 普通 字体 ，2 一 粗 体 ，3 一 斜体 ，4 一 粗 体 斜体 


表 15.1 列举 了 比较 常用 的 一 些 参 数 ， 更 多 的 参数 参见 R 语言 的 帮助 文档 。 假 如 我 们 想 
要 修改 颜色 ， 那 么 需要 对 vertex.color 参数 进行 修改 ， 如 图 15.9 所 示 。 


plot (myfristnewwork,vertex.color-"red") 
修改 节 扩 的 标识 ， 则 需要 对 vertex.label 参数 进行 修改 ， 如 图 15.10 所 示 。 
= œ ("a", "bp", mcCn) ) 


plot (myfristnewwork,vertex.color-2"red",vertex.label 


要 将 有 回 图 转化 为 无 回 图 ， 最 第 用 的 方法 是 使 用 as.undirected( ) 函数 ， 如 图 15.11 和 
图 15.12 所 示 ， 分 别 对 应 有 辐 图 与 无 癌 图 。 
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Ye 


图 15.9 修改 颜色 图 15.10 ”修改 斑点 的 标识 


myfristnewwork undirected«- as.undirected (myfristnewwork) 
plot (myfristnewwork) 


plot(myfristnewwork undirected) 
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图 15.11 有 向 图 图 15.12 无 向 图 
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RIAT AN EE ERRE RRR ENEAK, BUTE graph( ) 函数 中 指定 


directed=False. 


myfristnewworkl 


<- graph (edges = c("Alice","Sam","Sam","Sam","Sam","David","David","Al1i 
ce","Frank","David"),directed = FALSE) 
plot (myfristnewworkl) 


15.4 ”社交 网 络 分 析 算 法 


本 节 主 要 介绍 的 社交 网 络 算法 是 社区 检测 ， 包 括 Girvan-Newman、 基 于 传播 标签 的 社 
区 检测 、 基 于 仿 禁 优化 模块 的 社区 检测 及 目 旋 转 玻璃 社 群 。 
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15.4.1 Girvan-Newman 


Girvan-Newman 算法 通过 不 断 删 除 网 络 中 的 边 来 检测 网 络 中 的 社区 ， 在 最 终 剩余 的 网 
络 中 的 连通 节点 就 是 社区 。Girvan-Newman 算法 并 不 是 去 测量 哪些 边 具 有 最 高 的 中 心 度 ， 
而 是 关注 哪些 边 最 有 可 能 连接 看 社区 。 

顶点 介 数 是 一 种 反映 网 络 中 顶点 的 中 心 度 的 指标 。 对 于 一 个 顶点 i， 顶点 介 数 是 指 网 络 
中 经 过 该 顶 点 的 所 有 最 短路 人 径 的 数量 。 

Girvan-Newman 算法 将 介 数 扩展 到 了 边 。 关 似 地 ， 一 条 边 的 边 介 数 是 指 网 络 中 经 过 该 
边 的 最 短路 径 的 数量 。 如 有 果 一 个 网 络 所 包含 的 社区 之 间 是 由 少量 的 边 连接 的 ， 那 么 经 由 不 
同 社 区 的 最 短路 径 都 需要 从 这 些 边 上 经 过 , 因此 这 些 边 的 边 介 数 会 非常 高 ,通过 移 除 这 些 边 ， 
各 个 社区 将 会 被 分 隔 开 来 ， 从 而 可 以 发 现 这 些 社区 。 

Girvan-Newman 算法 的 步骤 中 。 重新 计算 剩余 每 条 边 的 边 介 数 需 要 花费 很 多 计算 时 间 ， 
然而 ， 并 没有 较 好 的 办 法 省 去 这 些 开 销 。 当 一 条 边 被 删除 了 之 后 ， 网 络 的 结构 发 生 了 变化 。 
举例 来 说 ， 假 设 两 个 社区 之 间 有 不 止 一 条 边 ， 那 么 并 不 是 每 条 边 都 会 有 较 高 的 边 介 数 ， 我 
们 只 能 未 渐 地 删除 这 些 边 ， 在 这 个 过 程 中 会 友 现 至少 有 一 条 边 会 有 较 局 的 边 介 数 。 

Girvan-Newman 算法 的 结果 是 一 个 树 状 图 。 这 个 树 状 图 目 顶 问 下 地 描绘 了 社区 的 结构 。 
树 状 图 的 叶子 则 是 图 的 每 个 节点 ， 首 先 创 建 一 个 树 结构 的 图 。 使 用 make tree( ) 函数 创建 一 
个 树 结 构 网 络 ， 如 图 15.13 所 示 。 

亲人 


# 首先 构造 一 个 网 络 
plot (g) 


图 15.13 BAAN 
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使 用 cluster edge betweenness( ) 函数 构建 Newman-Girvan 模型 ， 并 且 进 一 步 ， 可 以 将 
模型 的 结果 可 视 化 为 层次 聚 类 的 结果 ， 如 图 15.14 rzn. 


ceb «- cluster edge betweenness(g) 4 构造 模型 
dendPlot(ceb) 4 可 视 化 


40 


30 


20 


10 
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图 15.14 ”层次 聚 类 的 可 视 化 
进一步 查看 社 群 分 类 的 结果 ， 如 图 15.15 所 示 。 


plotí(ceb,qg) 


15.45 社 群 检测 结果 图 


输出 社 群 检测 结果 : 


ceb 


msT]5s 


## IGRAPH clustering edge betweenness, groups: 7, mod: 0.68 
## + groups: 


+H 2p 

Td [1] 1 4 13 38 39 40 

Td 

#H "2 

24 [I] BT BET IE 
HH 

并 并 d- 

T [E028 29 403] 
qd 

#H $ 4 


Lx + ... omitted several groups/vertices 


可 以 看 到 ， 这 里 将 网 络 划 分 为 了 7 个 社 群 。 


15.4.2 ”基于 传播 标签 的 社区 检测 


这 种 方法 的 基本 思想 是 ， 每 一 个 节点 的 社 群 归属 是 由 相 邻 的 节点 标签 决定 的 ， 相 令 节 
点 中 出 现 最 多 的 那个 标签 就 是 该 节点 的 标签 ， 类 似 于 机 器 学 习 中 的 KNN 算法 。 

在 最 开始 ， 每 一 个 节点 都 有 一 个 独特 的 标签 ， 将 密集 连接 的 节点 标签 归 为 一 类 ， 然 
后 进行 不 断 的 迭代 ， 直 到 这 些 具 有 相同 标签 的 节点 组 成 一 个 社 群 。 下 面 通过 cluster label - 
prop( ) 函数 构建 模型 ， 如 图 15.16 所 示 。 


clp «- cluster label prop(g) 
plot (clp,g) 


图 15.16 ”传播 标签 的 社 群 检测 
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15.4.3. dET- X EEDLAG BREL RE DKES 


di TR AEUUMLBRERIR EE DOS IU Z3 — BRA iE. 但 它 是 自 下 而 上 进行 分 层 的 。 wH, 
每 个 顶点 属于 一 个 单独 的 社区 ， 并 且 迭 代 地 合并 社区 ， 使 得 每 个 合并 是 局 部 最 优 的 〈 即 产 
生 模 块 化 的 当前 值 的 最 大 增加 量 ) 。 当 不 可 能 再 增加 模块 性 〈《Modularity) 时 ， 算 法 停止 执 
行 ， 最 后 模型 返回 社 群 的 分 组 和 树 形 图 。 该 方法 的 效率 很 咒 ， 并 且 它 通常 作为 第 一 近似 笠 
试 的 方法 ， 因 为 它 没 有 要 调整 的 参数 。 然 而 ， 由 于 算法 的 限制 ， 低 于 给 定 国 值 的 社区 将 与 
邻近 社区 合并 。 


cfg <- cluster fast greedy (g) 


15.4.4 Eie FEXXEBE 


自 旋转 玻璃 这 一 概念 源 于 物理 学 ， 它 是 某 些 特制 的 物理 材料 的 一 种 无 序 状态 。 如 果 把 
关系 网 络 看 作 一 个 随机 网 络 场 ， 网 络 中 的 菜 一 节操 与 其 他 点 连接 或 者 不 连接 可 以 看 作 磁 
性 材料 相互 作用 与 反 位 性 相互 作用 ,这 两 种 相互 作用 形成 一 个 能 量 函 数 ， 当 能 量 函数 小 时 ， 
关系 网 络 的 层次 结构 被 称 为 旋转 配置 ， 此 时 网 络 内 部 的 社 群 可 看 作 自 旋转 系统 的 状态 ， 该 
IRUREZSMUL T ERAKGR AS 

FAEH spinglass.community( ) 图 数 构 建 模 型 ， 如 图 15.17 PZR. 


sping <- spinglass.community(g) 
plot isping;g) 


图 15.17 上 自 旋转 玻璃 社 群 
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A SAPUTO EE 3-2 RUE VRAC ERE A. rA 183A HEP EE — 8 FH)? 23S — — spammer; 
T PER AS HIP ZJBINRRHE . Sd USES WDA. zx ACC O HIH A 29COR ETT TEC P9] 
络 分析 ， 划 分 出 不 同 的 社交 网 络 群 体 ， 进 而 识别 出 垃圾 用 户 所 在 的 群体 。 

首先 需要 读 取 数据 ， 数 据 来 自如 下 链接 : https: //archive.ics.uci.edu/ml/machine-learning- 
databases/00323/。 


require (tidyverse) 
fol lower<— readr::read csv("microblogPCU/follower followee.csv") 
post €- readr::read csv("microblogPCU/post.csv") 


user post <- readr::read csv("microblogPCU/user post.csv") 


weibo user «- readr::read csv("microblogPCU/weibo user.csv") 
dim(follower) 

## [1] 142368 nu 

dim(í(post) 

## [1] 35 11 

dim(user post) 

## [1] 48813 9 

dim(weibo user) 

## [1] 781 10 


本 节 用 到 的 数据 集 是 weibo user 数据 集 。weibo user 是 关于 微 博 用 户 信息 的 数据 集 ， 
其 包含 了 微 博 用 户 的 基本 信息 、 有 多 少 粉 丝 等 ， 其 变量 及 其 含义 如 表 152 所 示 。 
表 15.2 weibo user 变量 及 其 含义 
D (XX —— 0 0 00 
账户 注册 位 置 或 其 他 个 人 信息 
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在 weibo 用 户 的 数据 中 ， 部 分 数据 是 有 标签 的 ，is_spammer 字段 为 1 表示 该 用 户 是 垃 
圾 用 户 。 和 尝试 对 数据 进行 社 群 检 测 ， 将 数据 划分 成 不 同 的 社 群 ， 大 量 包 含 垃圾 用 户 的 社 群 
即 为 垃圾 社 群 ， 社 群 中 其 他 没 标 合 的 人 可 以 认为 是 垃圾 用 户 。 

现在 取出 来 一 部 分 数据 建立 天 系 图 ， 如 图 15.18 所 示 。 


library (lgraph) 

library (Hmisc) 

follower <- follower $»$ fülter(follower id $nin$ idl) 

ig eI sy urs uEsdLIbevs[-qer- tare eco aspe tee = 
gg<-9g9raph.data.frame (data,.,frame (er=follower followee part$follower 
id,ee-follower followee partsfollowee id)) 


plot (gg, 
vertex.label=NA, ## 不 显示 标签 
edge.arrow.mode-'-', #} MEHRI 
vertex.size = 5 HHE TREANA 


B] 15.18 MERK RAE 


15.5.1 HEFE RAEE 


ELZGI HH E MERKARI IT AR A ETER, WR 15.19 Hrs. 


sping <- spinglass.community (gg) 


plotí(sping,gg,vertex.label-NA, ## 不 显示 标签 
edge.arrow.modes'-', ## 不 使 用 箭头 
vertex.size - 5) ## 设 置 节点 圆 的 大 小 \ 
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图 15.19 ” 自 旋 转 玻璃 社 群 图 


Sping$membership 

## ES MEI: E. EL EC c EC. Mea Ms HQ s c d gat a p a NO P o a S ES D a en n E ai 
LT 
站 
TET 
ll 
7 7 

dr [70] 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 
T7007 

TI c pSS RÉEL ODD SB 
8 8 

weibo user$user id <- as.character(weibo usersuser id) 

Social <- data.frame(spingSnames,spingS$membership) 

social$sping.names <- as.character(social$sping.names) 
ie 
HONEC OMEN 


table(social5sping.membership,social$is spammer,useNA = "always") 
Uu 

pd -1 1 «NA» 
## 1l 0 0 2 
## 2 1 0 5E 
Td 3 0 0 1 
## 4 0 1 135 
Lx E Į 0 113 
ubi 6 0 il 180 
UE F 0 1 138 
4 8 0 1 149 
TÉ 9 0 0 1 
FF 10 0 0 67 
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i4 Ti 0 16 47 
Jd 12 0 0 1 
## <NA> 0 0 0 


可 以 看 到 ， 关 系 网 络 被 划分 成 了 12 个 群体 。 建 立 社 群 标签 与 是 否 是 垃圾 用 户 的 标签 列 


15.5.2. ZEER 


使 用 基于 边缘 中 介 的 社区 结构 检测 的 方法 进行 建 模 ， 首 先 根据 数据 构建 网 络 ， 然 后 使 


用 cluster edge betweenness( ) 进行 社 群 检测 。 


weibo network-graph.data.frame(data.frame(er-follower followee 
partSfollower id,ee-follower followee part$followee id),directed = F) 
clus <- cluster edge betweenness (weibo network) 

clus$membership 

UE [1] 1 234567888888888888888888888838 
8888 

## [36] 8 888888888888888888888888888888 
B lox 

social <- data.frame(clus$names,clus$membership) 

social$clus.names <- as.character(socialS$clus.names) 
= a e e e a eaae a 
TM 


table(social$clus.membership,social$is spammer,useNA = "always") 
## 

## -1 1 <NA> 
T 1l 0 1 138 
## 2 0 0 67 

$4 3 0 1 150 
i4 4 0 jl 181 
## 3 0 1 140 
## 6 1 0 95 

TH J 1 0 120 
Td 8 0 16 46 

d «NA» 0 0 0 


可 以 看 到 ， 关 系 网 络 被 划分 成 了 8 个 群体 。 垃圾 用 户主 要 集中 在 第 8 个 群体 ， 因 此 判 


WE 8 个 群体 是 spammer 群体 。 
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15.6 总  £ 


本 章 介 绍 了 社区 网 络 分 析 的 基本 概 仿 ， 以 及 在 RR 语言 中 进行 社 允 网 络 分析 的 包 
igraph， 还 介绍 了 几 种 社 群 发 现 方法 ， 并 进一步 对 微 博 数 据 进行 分 析 ， 在 微 博 数据 中 利用 社 
群 肥 现 的 方法 识别 垃圾 用 户 的 社 群 。 
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$16% H20O 机 器 学 习 


16.1 H20 机 器 学 习 平 台 


H20 是 一 个 完全 开源 的 分 布 式 内 存 机 器 学 习 平 台 ， 具 有 线性 可 扩展 性 ，。 
H20O 支 持 广泛 使 用 的 统计 和 机 器 学 习 算 法 , 包括 梯度 增强 机 器 、 广 义 线性 模型 、 
深度 学 习 等 。H20O 还 具有 业界 领先 的 AutoML 功能 ， 可 自动 运行 所 有 算法 及 
其 超 参 数 , 以 生成 最 佳 模型 的 排行 榜 。H2O 平台 已 被 全 球 14 000 多 家 组 织 使 用 ， 
FHER & Python 社区 中 非常 受 欢 迎 。 

H20 机 需 学 习 平台 的 主要 特征 如 下 。 

(OD 具有 领先 的 机 器 学 习 算法 ， 如 GLM、GBM、XGBoost、GLRM、 
Word2 Vec 等 。 

(2) 可 以 很 容易 地 使 用 了 R 或 者 H2OFlow， 它 是 一 种 机 器 学 习 的 交互 式 
界面 ， 不 需要 任何 编码 就 可 以 构建 机 器 学 习 模 型 。 

(3) 支持 分 布 式 内 存 处 理 、 节 点 和 集群 之 间 的 快速 序列 化 ， 以 支持 海量 
数据 集 。 大 数据 的 分 布 式 处 理 通过 细 粒 度 并 行 提供 高 达 100 倍 的 速度 ， 实 现 
最 佳 效 率 ， 而 不 会 降低 计算 精度 。 

(40 方便 部 署 ， 可 以 将 模型 保存 为 POJO 和 MOJO 格式 ， 在 任何 环境 中 
部 署 模 型 都 可 以 进行 快速 的 预测 。 

本 章 将 介绍 机 器 学 习 的 工具 一 一 H20。 使 用 H20 构建 机 器 学 习 模 型 比 直 
接 使 用 R 语言 更 有 优势 。 例 如 ， 其 可 以 以 更 快 的 速度 处 理 更 大 量 级 的 数据 ， 
并 且 可 以 通过 交互 式 界面 的 方式 构建 机 器 学 习 模 型 。 


^" 1 6 章 ”H20O 机 器 学 习 
16.2 在 民 语 言 中 使 用 H2O 


H20 机 占 学 习 平台 可 以 通过 很 多 方式 进行 调用 ， 如 Python、R。H20O 本 冉 也 是 一 个 大 
数据 机 融和 学 习 平 台 ， 握 供 了 一 个 解决 大 数据 问题 的 解决 方 采 。 接 下 来 这 一 部 分 会 介绍 如 休 
在 R 语言 中 使 用 H20 构建 机 器 学 习 模型 。 


162.1 H20 的 安装 


第 一 次 使 用 H20 需要 进行 安装 ， 在 及 语言 或 者 Rstudio 中 运行 以 下 代码 即 可 下 载 
H20. 


# The following two commands remove any previously installed H20O 
packages for R. 

1f ("package:h20o" $in$*$ search()) { detach("package:h20o", unload-TRUE) } 
if ("h20" $in$ rownames(installed.packages())) { remove.packages ("h2o") 


} 


# Next, we download packages that H20 depends on. 

pkgs =<- C(TRCUr IA sonis 

for (pkg in pkgs} 1 

if (! (pkg %inš rownames(installed.packages(í()))) { install. 
packages(pkg) } 

} 


# Now we download, install and initialize the H20 package for R. 
install.packages("h20", type-"source", repos-"http://h20-release. 
s3.amazonaws.com/h20/rel-xu/3/R") 


16.2[2 ”有 案例 应 用 


接 下 来 通过 一 个 简单 的 例子 来 说 明 在 R 语言 中 H20 是 如 何 工 作 的 。 这 里 使 用 的 数据 集 
是 iris 数据 集 ， 首 先 加 载 H20 &. 


library (h20) 


然后 初始 化 H20， 使 用 h2o.init( ) 函数 实现 : 


深入 浅 出 民 语 言 数 据 分 析 


| ei 

## Connection successful! 

## 

f R is connected to the H20 cluster: 

b H20 cluster uptime: 1 days 3 hours 

"4 H20 cluster timezone: Asia/Shanghai 

BG H20 data parsing timezone: UTC 

TH H20 cluster version: SIT ge ges 

v— H20 cluster version age: 4 months and 22 days !!! 

LE H20 cluster name: Ha20srtaorpod EromoR emi eo 
gd H20 cluster total nodes: 1 

## H20 cluster total memory: 1.61 GB 

## H20 cluster total cores: 4 

## H20 cluster allowed cores: 4 

Td H20 cluster healthy: TRUE 

T4 H20 Connection ip: localhost 

Td H20 Connection port: 54321 

t4 H20 Connection proxy: NA 

BG H20 Internal Security: FALSE 

jd H20 API Extensions: XGBoost, Algos, AutoML, Core V3, 
Core V4 

## R Version: R version 3.4.3 (2017-11-30) 


看 到 以 上 信息 则 说 明 初 始 化 成 功 了 ， 然 后 将 数据 集 加 载 到 H2O 平台 。 使 用 as.h2o () ER 
数 将 及 语言 工作 空间 的 数据 加 载 到 H20 平台 。 


a nt edge scs esee diti cb ees 


## 

| 王 三 王 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 三 一 一 一 三 一 一 一 | 100$ 
然后 使 用 h20.randomForest( ) 函数 构建 随机 和 森林 模型 : 
Poorer c dream n ramlmEeresels eerd Er anes Tomum cof mes gases Img - 
names (iris) [5] 

aa SSE anTIE boss bii y ren 

| ==============================================================| 1005 
查看 模型 的 输出 结果 : 
h20 ran 
## Model Details: 
## ============== 
Td 


4 H20MultinomialModel: drf 
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## Model ID: DRF model R 1549896359989 4 
$4 Model Summary: 


UE piisa eE Beas eS sue some —uepayedi easet aka e ea tug SES June 
depth 

## 1 50 150 21241 1 

4## max depth mean depth min leaves max leaves mean leaves 

## 1 9 3.80000 2 14 Se ES 

LE 

六 并 


## H20MultinomialMetrics: drf 

## ** Reported on training data. ** 

## ** Metrics reported on Out-Of-Bag training samples ** 
## 

## Training Set Metrics: 

并 井 “ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 

$4 

## Extract training frame with '"h2o0.getFrame("iris")" 

## MSE: (Extract with ^"h20.mse') 0.03630175 

44 RMSE: (Extract with 'h2o.rmse') 0.1905302 

# Logloss: (Extract with "hee.bLogloss ) 0.1167547 

$4 Mean Per-Class Error: 0.04666667 

## Confusion Matrix: Extract with "h2o.confusionMatrix(«xmodel»,train = 


TRUBE D 

j} “== 二 = 二 二 = 一 一 二 = 一 一 = 二 一 = 二 一 一 = 二 二 一 二 二 二 一 二 = 二 一 二 二 一 一 二 二 一 一 二 二 一 一 = 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 = 
## Confusion Matrix: Row labels: Actual class; Column labels: Predicted 
class 

T setosa versicolor virginica Error Rate 

## setosa 50 0 0 0.0000 = 0 / 50 

## versicolor 0 47 3 0.0600 = 3 / 50 

$$ virginica 0 4 46 0.0800 = 4 /50 

## Totals 50 E 49 0.0467 = 7 / 150 

qd 

$4 Hit Ratio Table: Extract with '"h20.hit ratio table(«model»,train - 
TRUE) ` 

f} -------------------------------------------------------------------- 


## Top-3 Hit Ratios: 
Td k hit ratio 
## 1 1 0.953333 
## 22 1.000000 
## 3 3 1.000000 


模型 的 信息 很 多 ， 从 结果 中 可 以 看 到 ，MSE 约 为 0.036，RMSE 约 为 0.19, Logloss Z5 
为 0.117。 模 型 还 输出 了 混 清 矩阵 及 其 他 信息 。 
FAEH h2o.predict( ) 函数 预测 新 的 数据 集 : 
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pre nac pda MEE EG 


Td 

| 

| 
0$ 

| 

1|================================================================= 
100% 
pre 
LE predict setosa versicolor virginica 
## 1 setosa 0.9987384 0 0.001261564 
## 2 setosa 0.9987384 0 0.001261564 
## 3 setosa 0.9987384 0 0.001261564 
## 4 setosa 0.9987384 0 0.001261564 
## 5 setosa 0.9987384 0 0.001261564 
## 6 setosa 0.9987384 0 0.001261564 
## 


## [150 rows x 4 columns] 


上 面 的 例子 使 用 了 目 市 的 数据 集合 iris, TE H20 机 器 学 习 平 台中 构建 了 一 个 随机 和 森林 
模型 ， 并 进行 了 预测 。 


16.2.3 H20O0 和 常用 API 


H20 学 习 平 台 比 较 香 用 到 的 API 如 下 。 
(1) 读 取 / 写 出 数据 。H20O 数据 读 取 / 写 出 操作 的 函数 如 表 16.1 所 示 。 
表 16.1 H20 数据 读 取 / 写 出 操作 的 函数 
从 本 地 读 取 一 个 文件 进入 H20 
将 一 个 R 对 象 如 dataframe) 转换 成 H20 的 数据 结构 


保存 一 个 训练 好 的 模型 
保存 一 个 训练 好 的 模型 


(2) 数据 划分 。 例 如 ， 将 数据 划分 成 训练 集 与 测试 集会 使 用 h2o.splitFrame , X^ Ff 
数 的 第 一 个 参数 是 数据 集 ， 第 二 个 参数 ratios 表示 数据 划分 的 比例 。 
(3) H20 中 的 机 需 学 习 模 型 很 多 ， 比 较 稍 用 的 图 数 如 表 16.2 所 示 。 
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R 16.2 H20 $L 3 H FH e 2 


16.2.4 ”模型 的 通用 参数 


因为 不 同 的 模型 有 不 同 的 模型 参数 需要 调整 ， 因 此 这 里 不 针对 某 一 模型 的 参数 调整 进 
行 具体 介绍 ， 只 针对 所 有 模型 的 通用 参数 进行 介绍 。 

(1) stopping metric: 用 于 指定 用 什么 指标 来 衡量 模型 是 否 提前 俘 止 ， 对 于 回归 模型 
而 言 ， 默 认 参 数 是 MSE， 对 于 分 类 模型 而 言 ， 默 认 参 数 是 Logloss。 

(2) x: 目 变 量 的 名 称 《 或 者 列 数 ) 。 

G) y: 因 变 量 的 名 称 《〈 或 者 列 数 ) 。 

(4) training frame: 训练 模型 的 数据 集 。 

(5) ignore const cols: 是 耕 去 除 挥 固定 值 的 列 。 

(6) validation frame: 评估 模型 的 数据 集 。 

(7) stopping tolerance: 评估 误差 达 到 什么 水 平 ， 模 型 俘 止 训 疆 。 

(8) max runtime secs: 最 大 的 模型 训练 时 间 。 

(9) model id: 指定 模型 的 名 称 。 

(10) nfolds: 进行 几 折 交叉 验证 。 

(11) fold assignment: 划分 训练 数据 集 ， 可 以 为 Random 或 Modulo. 


162.5 ”参数 调整 


下 面 讲解 通用 参数 的 设置 方法 ， 以 及 模型 的 评 佑 ， 所 用 到 的 数据 依然 是 iris 数据 集 。 
痛 先 划分 数据 集 ， 其 中 训练 集 占 比 80%， 测 试 集 占 比 20%。 


深入 浅 出 民 语 言 数 据 分 析 


Ene cc SRname ae  Sirfs3Le]p dps ee 00 


# 划分 数据 集 


aa ee 
iris h2o.test <- tmp[[2]] 


然后 构建 随机 和 森林 模型 ， 指 定 相 关 参 数 ，nfolds = 10 表示 进行 十 折 区 叉 验 证 ， 
validation frame 指定 了 验证 数据 集 ，stopping metric 指定 为 AUC，stopping tolerance 指定 
为 0.001. 


INI A EadaomEm est 

x — Setdiff (names (iris), 

names (iris) [5]), 

y = names (iris)[5], 

training frame = iris h2o, 

model id - 'frist model', 

nfolds = 10, 

validation frame = iris hħhzżo.test,stopping metric = 'AUC',stopping_ 
tolerance = 0.001 
) 
## Warning in .h20.startModelJob(algo, params, h2oRestApiVersion): 
Stopping metric is ignored for stopping rounds=0.. 
Fd 

| 


EIRE T JHEXEITRUU. JPEE 2748 1] JU VAZSCUS SS VE DT ERES EE: 


prec A e Prede Ea ran Nenea TETS EIS] 


Tg 
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pre 
T 
Td 
## 
i 
## 
## 
Td 
Td 
T4 


predict 
seLosa 
setosa 
setosa 
setosa 
setosa 
EXE 


C Cl B w hh e 


eO 


eoo o 


.9977802 
-9977802 
-9977802 
99777802 
.9977802 
Scc arn 


setosa versicolor 


D å O å ü üa c cC 


[32 rows x 4 columns] 


第 了 加 = unos 


virginica 
,002219758 
.002219758 
.002219758 
.002219758 
SUD CUTS 
.002219758 


O O å ü da a 0 


使 用 h2o.performance 评价 模型 ， 第 一 个 参数 是 构建 好 的 模型 ， 第 二 个 参数 是 测试 的 数 


HIR o 


h2o.performance(h20 ran,iris_h2o0o.test) 
H20MultinomialMetrics: drf 


pd 
## 
ix; 
T4 
## 
## 
gd 
## 
## 
## 
«da 
id 


Test Set Metrics: 


MSE: (Extract with `h2o.mse`) 
RMSE: (Extract with '"h2o.rmse ) 0.09961318 


Logloss: (Extract with "h2o.logloss ) 


Mean Per-Class Error: 0 
Confusion Matrix: Extract 


ta>) ) 


0.009922785 


0.04358814 


with `h2o.confusionMatrix(<model>, 


## Confusion Matrix: Row labels: 


cla 
Td 
## 
T 
gd 
td 
T3 
Td 


Ss 
setosa 8 0 
versicolor 0 8 
virginica 0 0 
Totals 8 8 


Actual class; Column labels: Predicted 


setosa versicolor virginica Error 


0 0.0000 
0 0.0000 
lé 0.0000 
16 0.0000 


Rate 
0/8 
0 / 8 

0 / 16 
0 / 32 


Hit Ratro Taple: Extract with aEa>) 


## Top-3 Hit Ratios: 
Cn Edad 

1 1 1.000000 

2 2 1.000000 

3 3 1.000000 


FH 
T3 
T3 
uu 


从 结果 中 可 以 看 到 , MSE 为 0.009922785, RMSE 73 0.09961318. Logloss 为 0.04358814. 
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到 这 里 为 止 ， 使 用 H20 构建 机 器 学 习 模 型 与 R 语言 中 其 他 构建 模型 的 方式 并 无 多 大 差别 。 


16.3 H20O Flow 


H20 Flow 是 H20 的 开源 用 户 界 面 。 它 是 一 个 基于 Web 的 交互 式 环境 。 

H20 Flow 允许 用 户 以 交互 方式 使 用 H20 导入 文件 ， 构 建 模 型 并 和 迭代 地 改进 它们 。 根 
据 模型 ， 可 以 进行 预测 ， 所 有 这 些 都 在 H2O Flow 的 基于 浏览 器 的 环境 中 实现 。 

H20 Flow 的 泥 合 用 尸 界 面 将 命令 行 计算 与 现代 图 形 用 户 界 和 面 无 缝 融合。 但 是，H20O 
Flow 不 是 将 输出 显示 为 纯 文本 ， 而 是 为 每 个 H20O 操作 提供 点 击 式 用 户 界 面 。 它 允许 用 户 
以 组 织 民 好 的 表格 数据 的 形式 访问 任何 H20 对 象 。 

H20 Flow 将 命令 作为 可 执行 单元 序列 发 送 到 H20， 可 以 修改 、 重 新 排列 单元 格 或 将 其 
保存 到 库 中 。 每 个 单元 格 都 包含 一 个 输入 字段 ， 允 许 输 入 命令 、 定 义 函 数 、 调 用 其 他 函数 
及 访问 页 面 上 的 其 他 单元 格 或 对 象 。 执 行 单元 格 时 ， 输 出 是 一 个 图 形 对 象 ， 可 以 检查 该 对 
象 以 查看 其 他 详细 信息 。 

虽然 H2O Flow 支持 R 脚本 ， 但 运行 H20 Flow 无 须 编程 经 验 。 用 户 可 以 使 用 鼠标 操作 
的 方式 构建 模型 ， 而 无 须 编 写 任何 代码 。H20O Flow 旨 在 通过 提供 输入 提示 、 交 互 式 帮助 和 
示例 流程 来 指导 用 户 的 每 一 步 。 


163.1 H20 Flow 的 安装 


如 果 在 Rstudio 中 已 经 安装 了 H20， 则 直接 在 Rstudio 中 输入 : 


library (h20) 
I ocu 


然后 打开 浏览 器 ， 输 入 “http: //127.0.0.1: 54321”， 这 样 就 打开 了 H20 Flow. 
如 果 使 用 的 是 服务 句 ， 则 不 需要 下 载 Rstudio， 和 直接 安 小 : 


apt-get http://h2o-release.s3.amazonaws.com/h2o/rel-xu/3/h2o- 
E A e aal 


IA Jr MA ZA mZ 17 : 
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cd~ / Downloads 
unzapelucecsmd uS 
Gm Ne M 

java -jar h20.jar 


MERNI V 8831 JT : 


http: // 服务 器 ip: 54321 


就 可 以 看 到 H20 Flow 的 操作 界面 ， 如 图 16.1 所 示 。 


H,O FLOW 
Untitled Flow 
[()p E ^*^ & x mà": Hb» 6 


cs assist 


Q Assistance 


Routine Description 
TeportFi Les Import file(s) into H50 
impartSqlTahle Import SOL table into HO 

E getfFrames Get a list of frames in H50 
spnlitFrame Split a frame into two or more frames 
maergeFrames Merge two frames into one 
getModels Get a list of models in H20 
getGrids Gat a list of grid search results in H9O 
getPredictions Getalist of predictions in H2O 
tJobs Get a list of jobs running in H0 
runAutoML Automatically train and tune mary models 

D buildModel Build à model 
importModel Import a saved model 

b predict Make a prediction 


图 16.1 H20 Flow 的 操作 界面 


16.3.2 H20 Flow 的 基本 使 用 方法 


OUTLINE FLOWS CLIPS HELP 


V Help n 


Using Flow for the first time? 
E Quickstart Videos 


Or, view example Flows to explore and learn 


H20. 


STAR H20 ON GITHUB! 
Q sur 379 


GENERAL 

* Flow Web Ul... 

* .. Importing Data 

a .. Bullding Models 

* Making Predictions 

a Using Flows 

* ..Troubleshooting Flow 


EXAMPLES 


Flow packs are a great way to explore and 
learn HO. Try out these Flows and run them 
in your browser. 

Browse installed packs.. 


Hani BEST DS 


首先 导入 数据 。 寻 入 数据 非常 简单 ， 单 击 importFiles， 就 会 出 现 数 据 导 入 界面 ， 输 入 数 
据 链 接 (数据 链接 为 https: //raw.githubusercontent.com/leestott/IrisData/master/irisTrainData. 


txt) ， 单 击 import 即 可 导入 数据 ， 如 图 16.2 所 示 。 
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Lat Bt T grad EE MEI i H gd 
"ptPrudictions Getalist of predictions In HaO 
Get alist of jobs nunning in Ha 


Automatically train and tone mary modals 
Build & melal 

Import a savod model 

Mlake a prediiion 


&& Import Files 
Sev o hetns-github com Wamamilin/blag L'blob/master/iris.csv 


Soarch Resulte (AII filag added} 
Selected Files {fle selected; Clear All 


E htipsigithubcom/Eamamilin/blog 1/blcb/master/iriscsv 


Adine | impart | 


图 16.2 H20 Flow 数据 导入 


村 入 数据 之 后 ， 需 要 俘 看 一 下 其 体 的 数据 ， 单 击 叶 入 的 数据 集 ， 即 可 俘 看 导入 的 数据 ， 
如 图 16.3 所 示 。 


EBirisTrainData2.hex 


= DATA 


de Ire L E | mums = MEN | 


C2 c3 C4 


D 
: 
o 
n 
^J 


-5000 1.4000 .2000 
-2000 
2000 
.2000 


2000 


3.8 1.4000 
-2000 1.3000 
-1000 1.5000 
-6000 1.4000 
-9000 1.7000 
-4000 1.4000 


-4000 
-3000 
.2000 
.2000 


.406080 1.5000 


| D © - OG un B ue hod 


.7000 1.5000 
.4000 1.6000 
3.0 1.4000 
3.0 1.1000 
4.0 1.2000 
.4000 1.50060 260.4000 
.96000 1.3000 260.4000 
.50080 1.4000 60.3000 
3.8000 1.7000 28.3000 1. 
.8000 1.5000 20.3000 


16.3 H20 Flow 查看 数据 集 


.2000 
2000 
10900 
1000 
2000 


8 
g 
8 
a 
g 
g 
g 
8 
8 
.1600 1.5000 0.1000 
6 
8 
8 
自 
8 
8 
8 


O € O O O UD oU (D OO 0 0 m ac m m m m m mm m 
€ (€ C UO OQ UO OC UD CD UC CO OD OO D c D OO 5 c G 


接 下 来 划分 数据 集 ， 为 构建 模型 做 准备 。 单 击 Split Frame， 对 导入 数据 进行 划分 ， 可 
以 指定 划分 的 比例 ， 设 置 好 之 后 单 击 Create， 即 可 划分 数据 集 ， 如 图 16.4 所 示 。 


240 


| 
e | ssist splitFrame, "irisTrainData2.hex" 
| 


8« Split Frame 
Frame: | irisTrainData2 hex 
Splits Rato 
0.75 
0250 
Add a rwrw split 
Send. B71516 


Bl Create 


图 16.4 H20 Flow 划分 数据 集 


划分 好 数据 集 之 后 ， 就 可 以 建立 模型 ， 单 击 Build a Model， 然 后 选择 需要 构建 的 模型 ， 
如 图 16.5 所 示 。 


€$ | assist buildModel, null, training frame: "Trame D.750" 


© Build a Model 
Select an algorithm v (Algorithm) 
Aggregator 
Cox Proportional Hazards 
- Deep Learning 
Gradient Boosting Machine 
Generalized Linear Modeling 
| Generalized Den Rank Macdelina 


图 16.5 H20 Flow 构建 模型 


选择 好 模型 之 后 ， 可 以 设置 参数 ， 如 图 16.6 所 示 。 


i? Build a Model 
Select an algorithm:| XGBoost $| 


PARAMETERS 


model id xgboost-31578182-7IbO-4c98-b780-dc2da6000384 Destination id for this model; auto-generabed if 
not specified 
training frame | frame 0.750 Id of the training data frame. 


walidation frame | (Choose...) ld of the validation data frame. 


nfolds (Q Number of Folds for K-feld cross-validation (0 ta 


disable ar += 2]. 
résponse column | Choose.) * Response variable column. 
ignored enlumne | Search 
Showing page Loti 
C1 REAL 
— £2 REA 


REAL 


图 16.6 H20 Flow 设置 参数 


i A 
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设置 好 参数 之 后 ， 就 可 以 开始 创建 模型 。 模 型 构建 成 功 后 ， 单 击 View 查看 模型 ， 模 型 
的 输出 内 容 非 常 丰富 ， 如 图 16.7 和 图 16.8 所 示 。 


Untitled Flow 
[1g Bl + +t + x Un&vxuHbkbn» G 


| TE 可 和 机 TRAGE 


buildModel 'xghoost', ("model id":"xghnost-3157E81R2-Tfhb8-4egR-hT88- 

dc2da6080aBA" ,"training frame":"frame D.750",'vyalidation frame":"frame 8.250","nfolds":"10"."response col 
unn";"CT","ignored columns": 

[],"ignore const cols":true,"seed":-1,"ntrees":50, "max depth":6,"min rows":1,"min, child weight":1,"learn, 
rate":8.3,"eta":0.3," sample rate":1,"subsample";l,"col sample rate":l,"colsample bylevel";l,"score each 1| 
teration":false,"fold assignment" :"AUTO", "stepping. rounds" *G, "stopping metric":"AuTO","stonping tolerance 
":0.801,"max runtime secs":0,"distribution";"AUTO","categorical encoding":"AUTO","col sample rate per tre 
e":l,"colsample bytree":1,"score tree interval":8,"min split improvement":8,"gamma":8,"max leaves":8,"tre 
e method":"auto","grow policy" :"depthwise","dmatrix type":"auto","keep cross validation predictions":fals 
e,"keep cross validation fold assignment":false,"quiet mode":true,"max abs leafnode pred":9,"max delta st 
ep":8,"nthread":-1,"max hins":256,"min sum hessian in Leaf":168,"min data in leaf":0,"sample type":"unifo 
rm","normalize type":"tree","rate drop":0,"one drop":false,"skip drop":0,"booster":;"gbtree","reg lambda": 
0,"reg alpha":8,"backend"*"auto" , "gpu id":8) 


zs Job 


Run Time. 00:00:04.871 
Remaining Time 00:00:00.0 
Type Model 
Mey Q xgboost-31578182-7fb0-4098-b780-dc2da6000384 
Description. XGGBoast 
Status DONE 
Progress 1009 === 
Dona. 


Actions ^ Q View 


16.7 H20 Flow 模型 构建 完成 


WD Model 


Model ID: xgbonost-3157B182- /ThO-&e9B-h7BÜ-dec2da5DO0O0a384 
Algorithm: XGBoost 
Actions: £ Refresh F Predict.. X, Download POJO X. Download Model Deployment Package (MO JO) 
B Delete +£ Downlaad Gen Model 


MODEL PARAMETERS 
SCORING HISTORY - DEVIANCE 
F VARIABLE IMPORTANCES 
OUTPUT 

NAMES 

FDOMAINS 

r CROSS VALIDATION MODELS 

t OUTPUT - MODEL SUMMARY 

t OUTPUT - SCORING HISTORY 
OUTPUT - TRAINING METRICS 
FOUTPUT - VALIDATION, METRICS 


t OUTPUT - CROSS VALIDATION METRICS 


OUTPUT - CROSS-VALIDATION METRICS SUMMARY 


t OUTPUT = HELP 


16.8 H20 Flow 模型 结果 


m 第 1 6 5 uoi, 


构建 好 模型 进行 预测 ， 单 击 Predict， 出 现 Predict 界面 ， 选 择 需 要 预测 的 模型 和 数据 集 ， 
单 击 Predict， 即 可 进行 预测 ， 如 图 16.9 所 示 。 


b Predict 

Name mrediction-f6567557-&f 

Model xgboost-31578182-7fb0-4e?8-b780-dc2da6000384 
Frame: | frame 0.250 

Actions: | Predet | 


predict model: "xgboost-31578182-7fb0-4e98-b780-dc2da6000a84", frame: "frame 8.250", predictions frame; b: 
"nr edictinn-fe5&T55T-&5fT5-Adad-9158-d5315563266edd" 


TT 


b Prediction 


Actions | HB inspect 


* PREDICTION 


model xgboost-31578187-T7Tfh8-4e8B-b7BB-dc2dab8EBaB4 
model checksum 3611100401564443648 
frone frame 80.358 
früme checksum 59T804T1T83839373312 
description - 
model category Regression 
scoring time 1549994058263 
predictions prediction-fe5sRT55T-&TTÉ-&dad-3154-d&355e3285edd 
NSE 6 


图 16.9 H20 Flow 进行 预测 


预测 完成 之 后 ， 伍 看 预测 结果 ， 如 图 16.10 Przn. 


Row predict c2 

1 909.0081 3.0 
0.0001 3.6000 
0.0801 2.9000 
0.08001 3.9000 
0.0001 3.6000 
0.08001 3.3000 
0.0881 3.5000 
0.0001 4.2000 
0.0001 3.4000 
0.0801 2.8000 
0.0001 3.0 
0.0001 2.9000 
0.0601 2.5000 
0.06001 2.9000 
0.08001 2.4000 
0.0803 2.70080 
0.0001 3.0 
0.08001 2.5000 
0.9295 3.3000 
0.9959 2.7600 5.1000 1.96008 


16.10 H20 Flow 的 预测 结果 
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以 上 如 是 使 用 H20 Flow 构建 机 器 学 习 模 型 的 基本 步骤 。 使 用 H20 Flow 构建 模型 并 不 
需要 任何 代码 经 验 ， 并 且 ，H20O Flow 可 以 作为 一 个 机 器 学 习 平台 供 团 队 使 用 ， 团 队 成 员 可 
以 通过 浏览 强 访 问 这 个 机 絮 学 习 平 台 ， 具 有 非常 好 的 协作 能 力 。 和 十 要 注意 的 一 点 是 ，H20 
Flow 并 不 能 对 数据 进行 灵活 的 操作 。 因 此 ， 天 于 数据 处 理 、 数 据 探 索 的 工作 ， 还 需要 在 及 
语言 中 处 理 。 


16.4 ù 结 


H20 是 一 个 完全 开源 的 分 布 式 内 存 机 絮 学 习 平台 ， 上 共有 线性 可 扩展 性 ， 可 以 通过 很 多 
语言 接口 调用 , "UR. Python 等 , 文 持 广泛 使 用 的 统计 和 机 品 学 习 算法 , 包括 梯度 增强 机 器 、 
广义 线性 模型 、 深 度 学 习 等 ， 可 以 解决 及 语言 在 处 理 大 数据 时 存在 的 糟糕 问题 。 

本 章 介绍 了 机 需 学 习 工 具 H20， 它 是 一 个 非常 强大 的 工具 ， 能 够 快速 地 构建 机 器 学 习 
模型 ， 并 且 能 够 处 理 更 大 量 级 的 数据 。 本 章 还 介绍 了 H2O Flow， 其 是 一 个 交互 式 的 机 器 学 
习 界 而 ， 无 须 编 写 代码 ， 即 可 快速 地 构建 机 右 和 学习 模型 。 为 外 ， 部 莹 好 的 H20 Flow 可 以 
通过 浏览 锅 在 任何 地 方 进 行 访问 ， 有 共有 很 强 的 便携 性 和 协作 能 
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随 着 互联 网 的 出 现 ， 网 络 成 为 一 个 承载 信息 的 巨大 载体 。 在 这 种 情况 下 ， 
数据 的 量 级 已 经 远 远 超 过 了 人 脑 能 够 承受 的 范围 。 如 何 有 效 地 利用 网 络 数据 
是 一 个 巨大 的 挑战 。 从 另外 一 个 角度 来 讲 ， 互 联网 数据 的 规模 巨大 ， 而 掌握 
怜 虫 技术 ， 则 能 够 从 这 宝库 中 获取 巨大 的 价值 。 聆 虫 技术 是 一 种 从 网 页 中 获 
取 数 据 的 方式 ， 是 按照 一 定 规则 ， 自 动 地 抓 取 网 页 数据 的 程序 或 者 脚本 。 其 
实 RR 语言 并 不 适合 开发 一 个 专业 的 拒 虫 工具 ， 因 此 对 于 开发 候 虫 软件 或 者 其 
他 相关 的 工作 ， 及 语言 并 不 是 一 个 好 的 选择 。 对 及 语言 用 户 而 言 ， 如 果 仅 仅 
想 快 速 地 获取 网 页 上 的 某 些 信息 ， 然 后 在 及 语言 中 进行 分 析 ， 那 么 使 用 及 语 
言 来 编写 疏 虫 代码 绝对 是 一 个 好 的 选择 。 本 章 将 介绍 使 用 及 语言 疏 取 网 页 的 
数据 。 使 用 到 的 包 是 rvest。 


17.1 ”快速 取 取 网 页 数据 


在 数据 分 析 项 目 中 ， 处 理 的 数据 大 多 数 是 结构 化 数据 ， 即 由 行 和 列 组 成 ， 
但 是 网 页 数据 往往 古 非 结构 化 的 ， 这 束 需 要 对 数据 进行 转换 。 网 页 的 非 结构 
化 数据 可 以 通过 网 页 源 代 码 看 到 ， 如 图 17.1 所 示 。 


1i» 


imd h € z i/0884OleeJ6D0I14611Bd6 Jg- . html" 
‘> T hi» 
| cla 'wiinme'sc/am2n$g EL Eee CE À«/pn» 


"e a ~ e a 1-050- 
vli imeem mui 


z ta le" fgchat/addRmalabiom.]jason? 


mearch" 
urle"/geesk/new/index/chat?ide0l95d9597b5Ebff9lXV-Jdi&80VA-" target="_blank" olass="btn btn 


17.1 网 页 源 代码 
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图 17.1 显示 了 一 个 招聘 网 站 的 源 代码 ， 而 招聘 信息 束 获 落 在 网 足 源 代码 中 ， 这 样 的 数 
据 没 有 办 法 使 用 。 这 个 时 候 束 需要 将 网 页 数据 息 取 下 载 ， 并 将 其 转换 成 结构 化 数据 。 
在 爬 取 数据 之 前 需要 做 一 些 准备 工作 。 首 先 下 载 相关 的 及 包 ， 并 进行 加 载 : 


install.packages("rvest") 
library (rvest) 


然后 安装 Google Chrome 浏览 匿 。 要 爬 取 网 页 数据 ， 首 先 要 知道 网 页 数据 处 于 网 页 的 
什么 位 置 。 那 么 如 何 描述 数据 在 网 页 中 的 位 置 ? 一 般 而 言 ， 可 采用 两 种 方式 ， 即 XPath 和 
Selector. 


图 17.2 显示 了 XPath 和 Selector 是 如 何 描述 数据 在 网 页 中 的 位 置 的 。 


CSS 选择 器 参考 手册 


我 们 会 定期 对 W3School 的 CSS 参考 手册 进行 浏览 器 测试 。 


CSS3 选择 器 
在 CSS 中 ， 选 择 器 是 一 种 模式 ， 用 于 选择 需要 添加 样式 的 元 素 ， 

CSS" 列 指示 该 属性 是 在 哪个 CSS 版 本 中 定义 的 。 (CSS1、CSS2 还 是 CsS3,，) 

"m ! 例子 描述 

.class intro 选择 classz"intro" 的 所 有 元 素 ， 
tid | 选择 id-"frstname" 的 所 有 元 素 。 
| (00 GEHPRRASR. 


图 17.2 数据 定位 


在 图 17.2 F, “CSS 选择 器 参考 手册 ”这 个 标题 在 网 页 中 的 位 置 的 描述 如 下 。 

e Selector: #main > h2 > font > font; 

e XPath://*[(gid—"main" ]|/h2/font/font., 

网 页 数据 的 位 置 本 质 上 可 以 通过 观察 网 页 的 结构 ， 然 后 结合 Selector 和 XPath 的 语法 
XXE CERT lg. Selector 和 XPath 的 语法 规则 在 本 忆 束 不 进行 介绍 了 ) 。 男 外 ， 使 
用 Google Chrome 也 能 够 快速 地 获取 网 页 数据 的 位 置 。 获 取 的 方式 是 右 击 想 要 获取 的 数据 ， 
在 弹出 的 快捷 菜单 中 选择 “检查 ”命令 , 这 时 界面 会 显示 网 页 数据 在 网 页 代码 中 对 应 的 位 置 ， 
如 图 17.3 所 示 。 
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在 我 们 的 CSS 教程 中 ， 您 会 学 到 如 何 使 用 CSS 后 Hem S TOUS a 2p 
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图 17.3 数据 位 置 


右 击 对 应 位 置 的 代码 ， 在 弹出 的 快捷 沫 单 中 选择 Copy 一 Copy selector f 


所 示 。 


同学 们 ， 让 你 们 只 等 了 


Server Side ASP.NET XML 


3 教程 
使 用 CSS 来 提升 工作 效率 ! 
们 的 CSS 教程 中 ， 您 
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学 习 CSS ! 


命令 ， 如 图 17.4 


«html Lamngs"rh-cn"s 
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 :hady elass-"htnl"- 
"edlyv id-"wrapper" > 
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17.4 右键 菜单 命令 


这 样 即 可 获取 数据 对 应 的 位 置 。 至 此 ， 关 于 疏 虫 的 准备 工作 已 经 完成 。 


17.2 rvest 简介 


rvest 是 R 用 户 使 用 得 最 多 的 爬虫 包 ， 
基本 使 用 方法 如 下 。 


它 简 洁 的 语法 可 以 解决 大 部 分 的 在 虫 问题 。 它 的 


a 
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e 使 用 read html( ) 读 取 网 页 。 

e 通过 CSS 或 XPath 获取 所 需要 的 节点 ， 并 使 用 html nodes( ) ERF SAR, HÈ 
用 html text( ) 提取 对 应 节点 的 文本 。 

e 结合 stringr 包 对 数据 进行 清理 。 


17.2.1 rvest API 


下 面 对 rvest 包 的 API ETT — T fh] ER. 4 zh e 
CD 读 取 与 提取 。 这 一 部 分 主要 涉及 对 网 页 进行 操作 的 基本 函数 ， 如 表 17.1 Br. 


表 17.1 网 页 数据 提取 


读 取 HTML 文档 
[IT 


html -name() PERR tA A 


提取 标签 内 的 文本 


html att) 提取 指定 属性 的 内 容 
提取 所 有 的 属性 名 称 及 其 内 容 


解析 网 页 数据 表 的 数据 到 R 的 数据 框 中 
(2) 乱码 处 理 。 当 不 取 的 数据 存在 乱码 时 ， 一 般 情 况 下 是 编码 的 问题 。 乱 三 处 理 函 数 
如 表 17.2 所 示 。 


表 17.2 乱码 处 理 函 数 


用 来 探测 文档 的 编码 ， 方 便 我 们 在 读 入 HTML 文档 时 设置 正确 的 编码 格式 


用 来 修复 HTML 文档 读 入 后 的 乱码 问题 


(3) 行为 模拟 。 当 疏 取 一 些 网 页 需要 用 户 进行 操作 时 ， 如 需要 输入 账号 、 密 码 ， 就 需 
要 用 到 行为 和 模拟。 行为 模拟 相关 函数 如 表 17.3 所 示 。 
表 17.3 行为 模拟 的 相关 函数 
MEM 


LUNETTES: 
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续 表 
E 用 


通过 表达 式 找到 当前 页 面 下 的 链接 
历史 记录 导航 工具 


人 
得 到 相对 链接 或 绝对 链接 


17.2.2 rvest API 详解 


下 面 对 几 个 关键 rvestAPI 进行 比较 详细 的 介绍 。 

1. read. html( ) 函数 

read html ( ) 函数 的 主要 参数 如 下 。 

e x 可 以 是 URL、 本 地 路 径 、 包 含 HTML 的 字符 串 ， 或 者 来 自 HTTP 的 请 求 。 如 果 x 
是 URL， 则 参数 就 传递 给 GET( )。 

€ encoding 用 于 指定 文档 的 编码 形式 。 使 用 iconvlist( ) 函数 可 以 查看 完整 的 编码 列表 。 
如 果 编 码 方 式 不 能 确定 ， 则 可 以 党 试 使 用 stri enc detect ( ) 函数 来 获取 HTML 数据 。 

下 面 举 一 个 简单 的 例子 ， 使 用 到 的 网 页 链接 是 https: //hz.fang.anjuke.com/?from-navigation. 

首先 加 载 包 ， 然 后 使 用 read_html( ) 读 取 网 页 。 


require(rvest) 

HTML <- read html(x = "https://hz.fang.anjuke.com/?from-navigation") 
HTML 

$$ (xml document] 

## «html» 

$$ [1] <head>\n<meta http-equiv-"Content-Type" content-2"text/html; 
charset- ... 

$4 [2] «body»Mn«div id-2"header"»^An «div class-"top-banner"»An 


从 结果 可 以 看 到 ， 我 们 获取 了 网 址 的 HTML 网 页 数据 。 

2. html nodes ( ) 函数 和 html node ( ) A% 

html nodes ( ) 与 html node ( ) 3& FH] FIRRA ZB RA ABA e 

e x: 一 个 xml document 数据 。 

€ css, xpath: 要 收集 的 节点 。 在 html nodes( ) 函数 和 html. node( ) 函数 中 传 入 XPath 
或 者 Selector， 也 可 以 使 用 浏览 器 Google Chrome 辅助 获取 网 页 数据 的 XPath 或 者 


Selector, 
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仍 以 前 一 部 分 使 用 的 连接 为 例子 ， 


金辉 江山 云 闭 S 

[ $39 IE. | EDSA 

户型 : aE RADR: 97-122 

"B EE MEM WEM 
AMPE EA 

s IE DB EPIS] A 


[ frui eL Bm mS BEAD 
| P: mE BAER: 85-1350] 


cB se bopi ALE EN Sf 


BLA APRES 


5 5513 


RARR RARR AE. UH 17.5 所 示 。 
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Highlight DOM nodes during Eager Evaluation 


ype an maupression that evaluates bu a nodes to highlight that 


图 17.5 招聘 网 页 


如 图 17.5 所 示 ， 如 迪 我 们 想 獒 取 楼 盘 “ 东 原 旭 涟 开 阅 ”这 个 位 置 的 数据 ， 可 利用 


html node( ) 函数 。 


NAME <- HTML $»* html nodes{"#container > div.list-contents > div.list- 
results > div.key-list.imglazyload > driv:nth-child(l) > div > a.lp-name 


> h3 > span") 
NAME 
## (xml nodeset (1)) 


## [1] «span class-"items-name"»7k[mg78J E XE[N]« / span» 


这 样 我 们 束 获 得 了 对 应 位 置 的 节操 。 
大 想 要 得 到 对 应 节点 的 数据 ， 可 使 用 html_text( ) 函数 。 


NAME $»$ html text() 
HR [1] "RRB H" 


至 此 ， 就 可 以 使 用 rvest 爬 取 简单 的 数据 了 。 


17.3 TER BOSS BSE 


TAWE BOSS 下 聘 数据 ， 网 页 的 链接 为 https: //www.zhipin.com/job detail/?quer 
Vy="%0oE69%09390B09%oE09%08DYoAE?%oE39%o889%o80Y%oE6Yo9EYo90& sclty=101210100&industrvy=&poslt 


lon^. 


具体 的 网 页 如 图 17.6 所 示 。 


开启 职位 订阅 关注 服务 


mava di TR 
定时 为 你 推送 【和 视 州 成 


数据 分 析 11k-18k 中 软 国际 


| 长 7 澡 1-5 LAE SS I ARSLUE 


数据 分 析 20k-40k 


数据 分 析 15k-30k 


数据 分 析 6k-10k 


En hd Fe tEh [ms 


17.6 BOSS 直 聘 


fEix^PAEDUrB, EAER 4 个 字段 : 职位 名 称 、 公 司 名 称 、 薪 资 范围 ， 以 及 地 址 、 年 
限 等 信息 。 

爬 取 此 网 页 的 信息 , 首先 要 获取 一 个 页 面 中 所 有 数据 的 路 径 , 进而 获取 这 个 页 面 的 数据 ， 
获取 下 来 之 后 ， 将 数据 合并 成 一 个 数据 框 。 


# 网 页 网 址 

iba db d 

"https://www.zhipin.com/ 

job detail 
/?query-$E6$95$B0$E6$8DS$AES$E5$889$86$E6$9E$90&scity-101210100&industry-& 
position-" 


# 获取 网 址 
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HTML <- read html (url) 


HTML 

## (xml document) 

## «html class-s"standard"» 

## [1] «head»Mn«meta http-equiv-"Content-Type" content-"text/html; 
charset- ... 

## [2] «body»Mn«div id2"wrap" class-"search-job-list-wrap"»Mn&script»^n 


JobName <- HTML $»$ html nodes" main > div > div.job-list > ul» li > 
div » div.info-primary » h3 » a - div.jJob-title') *»* html text() 


CompanyName <- HTML $»5$ html nodes('#main > div > div.job-list > ul > 
li > div > div.info-company > div > h3 > a') 5>% html text () 


Salary €- HTML $25 html nodes('fmailn » div » div.job-list ^» ul » li » 
div > div into- primary » n3 = a > span') t-s html text () 


Description «- HTML z- html nodes('t$àmain » div » div.job-list » ul » 
ere 


Result «- data.frame(JobName,CompanyName,Salary,Description) 


head (Result) 


## JobName CompanyName Salary Description 

## 1 ”数据 分 析 中 软 国际 10k-15k 杭州 “3-5 年 本 科 

## 2 ”数据 分 析 师 [a] JE fH 10k-20k 杭州 余杭 区 仓 前 3-5 年 硕士 
## 3 ”数据 分 析 爱 唯 6k-10k 杭州 ”1-3 年 大 专 

## 4 KIEN 边锋 13k-20k 杭州 西湖 区 文 一 路 3-5 年 本 科 
## 5 ”数据 分 析 银 江 研 究 院 8k-16k 杭州 西湖 区 三 墩 1-3 年 本 科 
## 6 数据 分 析 专 家 Wam 10k-20k 杭州 滨江 区 长 河 3-5 年 本 科 


到 这 里 ， 就 已 经 息 取 了 一 个 页 面 的 数据 ， 并 且 将 数据 结构 化 了 。 然 后 ， 拒 取 翻 页 后 的 


其 他 数据 ， 这 时 就 需要 观 凤 翻 由 之 后 网 址 的 变化 : 


第 一 页 的 网 址 : https: //www.zhipin.comjob detail/?query-96E6969599B096E6968D96A E96 


E5Yo88%o80YoE6Yo9EYo90&sclty=101210100&Aindustry= 儿 posltlon=。 


第 二 页 的 网 址 : https: //www.zhipin.com/c101210100/?query=%E6%95%B0%E6%8D%A 


EYESY88Y0806%EOWIEYI0 & page—2 &ka-page-next . 


MERRI, Hu DULL AIRRA NER] ADHI. TE St — 1 (RII. A 


页 人 码 即 可 。 
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url <- paste('https://www.zhipin.com/c101210100/?query-$E6$95$B0$E658 


DSAESE5$88$86$E6S59ES90&page-',i,'&ka-page-next',sep = "") 


url <- "https://www.zhipin.com/job detail/?query-$E6$955B0$E6$8D$AESE 


5$885$86$E659ES90&scity-101210100&industry-&position-z" 


HEM Tread NETL ore 


HTML 


JobName <- HTML $>% html nodes('#main > div > div.job-list > ul > li > 
div > div.info-primary > h3 > a > div.job-title') $-* html text () 


CompanyName <- HTML $»$ html nodes('imain > div » div.job-list » ul > 


li > div > div.info-company > div > h3 > a') 


> html text() 


Salary <= HTML %>% html nodes('4$main > div > div.job-list > ul > Ii > 
div > div.info-primary > h3 > a > span') 


> html _ text () 


Description <- HTML z>? html nodes (T ýmain > div > div.JoD- list: > ul > 


Ii > div > diy,.inio primary > p') 


sma html tz) 


Resultl <- data.frame (JobName, CompanyName, Salary, Description) 


Result <- rbind(Result,Resultl) 


} 


dim (Result) 
## [1] 300 4 
head (Result) 


ub 
HE 
qd 
## 
ub 
HE 
## 


OY Ul B w U e 


JobName CompanyName 
数据 分 析 中 软 国际 
数据 分 析 师 BARH 
数据 分 析 ZénE 

数据 分 析 边锋 

数据 分 析 很 江 人 研究 院 
数据 分 析 专 家 ”网易 杭州 


Salary 
TO= CAK 
10k-20k 
6k-10k 
l3k-20k 
8k-16k 
10k-20k 


Description 

杭州 3-5 年 本 科 

杭州 余杭 区 仓 前 3-5 年 硕士 
杭州 ”1-3 年 大 专 

杭州 西湖 区 文 一 路 3-5 年 本 科 
杭州 西湖 区 三 墩 1-3 年 本 科 
杭州 滨江 区 长 河 3-5 年 本 科 


可 以 看 到 ， 这 里 一 共 爬 取 了 300 条 数据 。 通 过 这 种 方式 ， 网 页 中 对 应 页 面 的 数据 丈 极 


IESU PAK T. 
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17.4 模拟 登录 


很 多 疏 取 的 网 页 是 需要 先 登 录 的 ， 所 以 需要 在 爬 取 网 页 数据 之 前 模拟 登录 ， 然 后 进行 
数据 的 肘 取 。 模 拟 登 录 案 例 的 网 址 为 https://login.medscape.com/login/sso/getlogin?ac=401&u 
rlCache=aHROcHM6Ly93d3cubWVkc2NhcGUuY29tL3ZpZXdhcnRpY2xlLzg4NDY3Ng==。 其 
对 应 的 页 面 如 图 17.7 所 示 。 


Medscape 
NEWS & PERSPECTIVE DRUGS & DISEASES CME & EDLICATION ACADEMY WIDEO NEW 
Get unlimited access on Medscape. 


LOG IN REGISTER FOR FREE 


Email ar Usernam 


Password Show 


Remember me 


Leg in without password 


Forgot password or username 


图 17.7 对 应 的 页 面 


模拟 登录 的 第 一 步 是 模拟 对 话 。 通 过 html session( ) 函数 模拟 与 服务 器 的 会 话 ， 然 后 使 
用 html form( ) 来 解析 网 页 的 表单 ， 和 希望 从 中 找到 username 和 password 的 数据 位 置 。 


library (xml2) 
library(rvest) 


+ 取 地 址 ， 用 html _ session 模拟 会 话 
url «- 'https://login.medscape.com/login/sso/getlogin?ac-401&urlCache-a 
HRÜcHM6Ly93d3cubWVkc2NhcGUuY29tL3Z2pZXdhcnRpY2xlLzg4NDY3Ng--' 


ET 
pgsession 
## «session» https://login.medscape.com/login/sso/getlogin?urlCache-aHR 


OcHM6Ly93d3cubWVkc2NhcGUuY29tL32pZXdhcnRpY2xlLzg4NDY3Ng--&ac-401 
24 Status: 200 


<] 


第 了 / = mise 


TË Type: text/html;charset-UTF-8 
b Size: 50574 | | 
# 使 用 html form 来 解析 网 页 的 表单 


pgform <- html form(pgsession) 14 在 这 里 找 ， 列 表 的 第 几 个 元 素 包 含 了 username、 
Password 

pgform 

## [[1]] 

## <form> 'search-form-header' (GET javascript:subsearchheadertrack(' 
EDO 

## «input hidden> 'searchSrc': news 

## <input text> 'q': 

## «button submit» '«unnamed» 

## <button button> '<unnamed> 

## 

## [[21] 

## «form» 'search-form-header' (GET javascript:subsearchheadertrack(' 
En 

## «input hidden> 'searchSrc': news 

## <input text» 'q': 

F4 «button submit» '«unnamed» 

ub 

aru Jb ES 

$4 «form» 'loginRequest' (POST /login/sso/login) 

Td «input hidden» 'urlCache': aHROÜ0cHM6Ly93d3cubWVkc2NhcGUuY29tL3ZpZzXd 
hcnRpY2xlLzg4NDY3Ng-- 

T4 «input hidden» 'spa': 

ub «input hidden» 'stepUp': false 

gd «input hidden» 'facilitatedUrl': 

Td «input text» 'userId': 

DES «input password» 'password': 

T4 «input hidden» 'remember': on 

T4 «input submit» 'loginbtn': Log In 


pgforml <- pgform[[3]] + 这 里 提取 对 应 的 列表 ， 第 三 个 


在 上 面 一 步 的 代码 中 ， 使 用 html session( ) 传 入 需要 登录 的 页 面 ， 然 后 使 用 html. form ( ) 


解析 网 页 的 表单 ， 再 在 解析 的 表单 中 找到 username、password 在 解析 结果 列表 中 的 位 置 ， 最 
后 提取 对 应 列表 的 解析 结 采 。 这 样 做 的 目的 是 找到 填写 账号 、 密 码 的 表单 。 如 上 面 的 结 朱 


所 示 ， 上 账号、 密码 对 应 着 第 三 个 列表 。 


接 下 来 填写 账号 与 密码 。 使 用 set_values( ) 来 填写 表单 中 的 账号 、 密 码 ， 然 后 通过 


submit form( ) 进行 提交 。 


niled Corm s set valuesipqtormt. 
'userId'2'155275042938163.com', 
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'password'-'h89paAybMt8ecku!') 
# 提交 
Sm 
## Submitting with 'loginbtn' 
sbmt 
## «session» https://www.medscape.com/viewarticle/884676 
## Status: 200 
Td Type: text/html;charset-UTF-8 
Td Size: 102961 


set values ( ) 用 于 设置 账号 和 密码 ，submit form ( ) 用 于 提交 账号 和 和 密码。 如 果 提 交 完 
成 之 后 登录 成 功 ， 就 会 看 类 似 这 样 的 登录 信息 : 


http://www.medscape.com/viewarticle/884676 Status: 200 Type: text/ 
html;charset-UTF-8 Size: 86339 


Status 200 表示 请 求 顺利 。 
登录 成 功 之 后 的 页 面 如 图 17.8 所 示 。 


Tín Hic Hn imenaded Tor hesthcnre professionals 
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Medscape Friday, December 21, 2018 


NEWS & PERSPECTIVE DRUGS & DISEASES CME & EDUCATION ACADEMY VIDEO NEW 


LM £ 


There's something you should know | rg 


‘CUR MEDSCAP 
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Jying at Home in an Opioid Crisis: 一 一 一 一 一 一 
Jospices Grapple With Stolen Meds | There's something 


| you should know = 


| 
elissa Bailey | 


r | Access ihe abest irin 
ugust 24, 2017 N | dala, ie pert puersgecthviés, 
| and treatment Information 
| P " T p irom industry 
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Nothing seemed to help the patient — and hospice staff didn't know why. 


They sent home more painkillers for weeks. But the elderly woman, who had 
severe dementia and incurable breast cancer, kept calling out in pain. 


Recommendations 


图 17.8 登录 成 功 之 后 的 页 面 


登录 成 功 之 后 ， 即 可 疏 取 网 页 。 疏 取 网 页 数据 的 方法 融 与 之 前 讲解 的 一 样 。 例 如 ， 怜 
取 文 章 : 
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## [1] "Nothing seemed to help the patient — and hospice staff didn't 
know why." 

## [2] "They sent home more painkillers for weeks. But the elderly 
woman, who had severe dementia and incurable breast cancer, kept 
calling out in pain." 

## [3] "The answer came when the woman's daughter, who was taking care 
of her at home, showed up in the emergency room with a life-threatening 
overdose of morphine and oxycodone. It turned out she was high on her 

mother's medications, stolen from the hospice-issued stash." 

## [4] "Dr. Leslie Blackhall handled that case and two others at the 

University of Virginia's palliative care clinic, and uncovered a wider 
problem: As more people die at home on hospice, some of the powerful, 
addictive drugs they are prescribed are ending up in the wrong hands." 
## [5] "Hospices have largely been exempt from the national crackdown 
on opioid prescriptions because dying people may need high doses of 
opioids. But as the nation's opioid epidemic continues, some experts 
say hospices aren't doing enough to identify families and staff who 
might be stealing pills. And now, amid urgent cries for action over 
rising overdose deaths, several states have passed laws giving hospice 
Staff the power to destroy leftover pills after patients die." 
$4 [6] "Blackhall first sounded the alarm about drug diversion in 2013, 
when she found that most Virginia hospices she surveyed didn't have 
mandatory training and policies on the misuse and theft of drugs. Her 
study spurred the Virginia Association for Hospices and Palliative Care 
to create new guidelines, and prompted national discussion." 
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17.5 i 结 


网 络 是 获取 数据 的 一 个 重要 渠道 ， 但 是 如 果 想 要 获取 网 页 中 的 数据 ， 那 么 就 必须 掌握 
息 虫 这 门 工 具 ， 以 便 从 网 页 中 有 息 取 数据 。 昌 然 RR 语言 是 进 行 数据 分 析 的 优秀 工具 ， 但 十 R 
语言 并 不 是 专业 开 友 把 虫 软件 的 工具 ， 这 并 不 妨碍 使 用 R i E SERRE, SERA 
当 需 要 快速 假 取 网 页 数据 ， 并 进行 分 析 时 ，R 语言 是 一 个 非常 好 的 选择 。 使 用 R 语言 能 够 
非 当 快速 地 完成 息 虫 和 数据 分 析 的 工作 。 本 章 介绍 了 如 何 使 用 R 语言 息 取 网 络 数 据 ， 如 何 
息 取 多 网 页 的 数据 ， 以 及 行为 模拟 。 当 然 ， 很 多 关于 扑 虫 的 内 容 在 本 章 没 有 涉及 ， 但 是 对 
于 想 要 快速 仆 取 数据 的 R 用 户 而 言 ， 这 些 已 经 足够 了， 因为 绝 大 部 分 情况 下 可 以 使 用 这 样 
的 方式 来 获取 网 页 数据 。 
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